کارکرد مدل‌های زبانی بزرگ هوش مصنوعی به زبان ساده

مدل زبانی بزرگ LLM

[ad_1]

هنگامی‌که یک نورون با یکی از الگوها مطابقت اشکار کرد، اطلاعاتی را به بردار کلمه اضافه می‌کند. گرچه تفسیر این اطلاعات همیشه آسان نیست، در تعداد بسیاری از موارد می‌توانید آن را به‌گفتن یک پیش‌بینی آزمایشی در رابطه کلمه بعدی درنظر بگیرید.

شبکه‌های پیش‌خور با بردارهای ریاضیاتی استدلال می‌کنند

تحقیقات تازه دانشگاه براون، مثال جالبی از نحوه‌ی پشتیبانی لایه‌های پیش‌خور به پیش‌بینی کلمات بعدی اراعه می‌کند. در قسمت‌های قبل به تحقیق word2vec گوگل اشاره کردیم که برای استدلال قیاسی از محاسبات برداری منفعت گیری می‌کرد. برای مثالً با محاسبه‌ی نسبت برلین به آلمان، پاریس را به فرانسه نسبت می‌داد. به نظر می‌رسد که لایه‌های فید فوروارد دقیقاً از همین روش برای پیش‌بینی کلمه‌ی بعدی منفعت گیری می‌کنند. محققان سؤالی را از یک مدل ۲۴ لایه‌ای GPT-2 پرسیدند و سپس کارکرد لایه‌ها را مورد مطالعه قرار دادند.

سوال: پایتخت فرانسه کجا است؟ جواب: پاریس. سوال: پایتخت لهستان کجا است؟ جواب:؟

در ۱۵ لایه‌ی اول، بهترین گمان مدل زبانی، واژه‌ای اتفاقی می بود. بین لایه‌های ۱۶ تا ۱۹ مدل پیش‌بینی کرد که کلمه‌ی بعدی لهستان است. پاسخی که درست نبوده است، اما دست‌کم ربط اندکی به نوشته داشت. سپس در لایه‌ی بیستم بهترین گمان به «ورشو» تحول کرد و در چهار لایه‌ی آخر بدون تحول باقی ماند. در واقع، لایه‌ی بیستم برداری را اضافه کرد که کشورها را به پایتخت متناظرشان متصل می‌کند. در همین مدل، لایه‌های پیش‌خور با منفعت گیری از محاسبات برداری، کلمات کوچک را به بزرگ و واژه‌های زمان حال را به زمان قبل تبدیل می‌کردند.

لایه‌های دقت و پیش‌خور ماموریت های مختلفی دارند

تا اینجا ما دو مثالی واقعی از پیش‌بینی کلمات توسط GPT-2 را بازدید کرده‌ایم: تکمیل جمله‌ی جان به مری نوشیدنی داد، به پشتیبانی سرهای دقت و نقش لایه‌ی پیش‌خور در این که ورشو پایتخت لهستان است.

در مثال اول، واژه‌ی مری از پرامپت یا دستور متنی اراعه شده توسط کاربر استخراج می‌شد، اما در مثال دوم واژه‌ی ورشو در دستور متنی نیامده می بود. مدل زبانی باید این حقیقت را «به یاد می‌آورد» که ورشو پایتخت لهستان است، یعنی از اطلاعاتی که از داده‌های آموزشی پیدا کرده می بود.

وقتی‌که محققان دانشگاه براون لایه‌ی پیش‌خوری که ورشو را به لهستان متصل می‌کرد، غیرفعال کردند، دیگر مدل زبانی واژه ورشو را به‌گفتن کلمه‌ی بعدی پیش‌بینی نمی‌کرد. اما هنگامی جمله‌ی «ورشو پایتخت لهستان است» را به ابتدای پرامپت اضافه کردند، مدل مجدد پیش‌بینی درستی اراعه داد؛ به گمان زیادً به این علت که مدل زبانی از سرهای دقت برای کپی‌کردن «ورشو» منفعت گیری می‌کرد.

بعد ما با یک «تقسیم کار» اشکار روبه رو‌ایم: سرهای دقت اطلاعات را از کلمات قبلی پرامپت بازیابی می‌کنند، درحالی‌که لایه‌های پیش‌خور به مدل‌های زبانی امکان خواهند داد اطلاعاتی را که در دستور متنی نیست، «به یاد بیاورند».

مکانیزم «دقت» با کپی کردن کلمات از دستور متنی پیش می‌رود، اما مکانیزم پیشخور اطلاعاتی را که در دستور متنی نیست به یاد می‌آورد

ما می‌توانیم لایه‌های پیش‌خور را به‌گفتن پایگاه داده‌ای فکر کنیم که اطلاعات حاضر در آن، از داده‌های آموزشی قبلی مدل زبانی جمع‌آوری شده است. به‌گمان‌زیاد لایه‌های ابتدایی پیش‌خور حقایق ساده‌ی مرتبط با کلمات خاص را رمزگذاری می‌کنند، برای مثال «جابز سپس از استیو می‌آید» و لایه‌های بالاتر روابط پیچیده‌تری را مدیریت می‌کنند؛ همانند اضافه‌کردن یک بردار برای تبدیل یک سرزمین به پایتخت آن.

نحوه آموزش مدل‌های زبانی

تعداد بسیاری از الگوریتم‌های اولیه‌ی یادگیری ماشین به مثالهای آموزشی با برچسب‌گذاری انسانی نیاز داشتند. برای مثال داده‌های آموزشی می‌توانست عکس‌هایی از سگ‌ یا گربه‌ با برچسب‌های «سگ» و «گربه» برای هر عکس باشد. یکی از دلایلی که تشکیل مجموعه‌های داده‌های بزرگ برای آموزش الگوریتم‌های قوی را پرهزینه و دشوار می‌کرد، همین نیاز به برچسب‌گذاری داده‌ها توسط نیروی انسانی می بود.

یکی از نوآوری‌های کلیدی LLMها این است که به داده‌های مشخصا برچسب‌گذاری شده نیاز ندارند. آن‌ها با تلاش برای پیش‌بینی کلمه‌ی سپس آموزش می‌بینند یا به کلمه، «ترین» (train) خواهد شد. تقریباً هر نوشته نوشتاری، از صفحات ویکی‌پدیا گرفته تا مقاله‌های خبری و کدهای رایانه‌ای، برای آموزش این مدل‌ها مناسب است.

به‌گفتن‌مثال، امکان پذیر یک LLM با دریافت ورودی «من قهوه‌ام را با خامه و -» واژه‌ی «شکر» را به‌گفتن کلمه‌ی بعدی پیش‌بینی کند. یک مدل زبانی که به‌تازگی مقداردهی اولیه شده، در این عرصه واقعاً بد عمل می‌کند؛ چون هر یک از پارامترهای وزنی آن تحت یک عدد کاملاً اتفاقی کار خود را اغاز می‌کند. اما هنگامی همین مدل مثالهای زیاد بیشتری را مشاهده می‌کند (صدها میلیارد کلمه) این وزن‌ها به‌مرور زمان تنظیم خواهد شد و پیش‌بینی‌های دقیق‌تر و بهتری حاصل می‌بشود.

جادوی LLM در این است که به داده‌های برچسب‌گذاری شده نیاز ندارد

برای فهمیدن بهتر این نوشته، فکر کنید می‌خواهید با آب ولرم دوش بگیرید. شما قبلاً با این شیر آب کار نکرده‌اید و علامتی هم روی آن مشاهده نمی‌کنید. بعد دستگیره را به طور اتفاقی به یک سمت می‌چرخانید و دما را حس می‌کنید. اگر آب زیاد داغ می بود، آن را به یک طرف و اگر آب زیاد سرد می بود آن را به‌طرف دیگر می‌چرخانید. هرچه به دمای مناسب نزدیک‌تر شوید، تغییرات کوچک‌تری می‌دهید.

اکنون بیایید چند تحول در این مثال به‌وجود آوریم. ابتدا فکر کنید که به جای یک شیر، ۵۰,۲۵۷ شیر آب وجود دارد. هر شیر آب به کلمه‌ی متغیری نظیر «خامه»، «قهوه» یا «شکر» مربوط می‌بشود و مقصد شما این است که آب به طور متوالی از سردوش‌های مرتبط با کلمات بعدی خارج بشود.

یقیناً پشت شیرهای آب یک شبکه‌ی پرپیچ‌وخم و مارپیچی از لوله‌های به‌هم متصل وجود دارد و لوله‌ها نیز دارای دریچه‌های بسیاری می باشند. به‌همین‌علت اگر آب از سردوش اشتباهی خارج بشود، مشکل شما فقطً با تنظیم دستگیره شیر حل نمی‌بشود. شما ارتشی از سنجاب‌های هوشمند را اعزام می‌کنید تا لوله‌ها را روبه‌عقب ردیابی کنند و هر دریچه‌ای را که در مسیر می‌بینند، تنظیم نمایند. ازآنجاکه یک لوله به چندین سردوش آب می‌رساند، کار مقداری پیچیده‌تر می‌بشود. باید به‌دقت فکر کنیم تا بفهمیم کدام دریچه‌ها را به چه مقدار شل یا سفت کنیم.

ما نمی‌توانیم این مثال را به دنیای واقعی بیاوریم، چون ساخت شبکه‌ای از لوله‌های مارپیچ با ۱۷۵ میلیارد دریچه، اصلاً واقع‌بینانه یا حتی سودمند نیست. اما کامپیوترها به لطف قانون مور می‌توانند در این مقیاس عمل کنند.

همه قسمت‌های LLM که تا کنون در رابطه آنها سخن بگویید کردیم یعنی نورون‌ها در لایه‌های پیش‌خور و سرهای دقت که اطلاعات متنی را بین کلمات جابه‌جا می‌کنند، به‌گفتن زنجیره‌ای از توابع ریاضی ساده (عمدتا ضرب‌های ماتریسی) عمل می‌کنند و رفتارشان با پارامترهای وزنیِ تعدیل‌پذیر تعیین می‌بشود. همانطور که سنجاب‌های داستان ما برای کنترل جریان آب دریچه‌ها را باز و بسته می‌کردند، الگوریتم آموزشی نیز با افزایش یا افت پارامترهای وزنی، نحوه‌ی جریان اطلاعات در شبکه عصبی را کنترل می‌کند.

فرایند آموزش مدل‌ها در دو مرحله انجام می‌بشود: ابتدا مرحله‌ی «انتشار کردن رو به جلو» که در آن شیر آب باز می‌بشود و شما بازدید می‌کنید که آیا آب از شیر خارج می‌بشود یا خیر. سپس آب قطع می‌بشود و مرحله‌ «انتشار کردن به عقب» اتفاق می‌افتد، همانند همان وقتی که سنجاب‌های هوشمند مسیر لوله‌ها را بازدید و دریچه‌ها را باز یا بسته می‌کنند. در شبکه‌های عصبی دیجیتال، نقش سنجاب‌ها را الگوریتمی به نام Backpropagation ایفا می‌کند که با محاسبات ریاضی مقدار تحول هر پارامتر وزنی را تخمین می‌زند و در طول شبکه به عقب حرکت می‌کند.

تکمیل این فرایند انتشار کردن رو به‌جلو با یک نمونه و سپس انتشار کردن رو به‌عقب برای بهبود کارکرد شبکه از طریق مثالی فوق، به صدها میلیارد عملیات ریاضی نیاز دارد. آموزش مدل‌های زبانی بزرگ نیز الزام تکرار این فرایند در مثال‌ها و مثالهای زیاد بسیاری است.

کارکرد شگفت‌انگیز مدل‌های زبانی بزرگ

احتمالا برای شما سوال باشد که چطور فرایند آموزش‌ مدل‌های هوش مصنوعی با وجود محاسبات بی‌شمار تا این حد خوب کار می‌کند. این روزها هوش مصنوعی مولد کارهای مختلفی را برای ما انجام می‌دهد، همانند نوشتن مقاله، تشکیل عکس یا کدنویسی. چطور این مکانیزم یادگیری می‌تواند این چنین مدل‌های قدرتمندی خلق کند؟

یکی از با اهمیت ترین دلایل این کار گستره‌ی داده‌های آموزشی است. ما به‌سختی می‌توانیم تعداد مثالها یا نرخ داده‌هایی را که مدل‌های زبانی بزرگ به‌گفتن ورودی آموزشی دریافت می‌کنند، در ذهنمان تجسم کنیم. دو سال پیش GPT-3 روی مجموعه‌ای شامل ۵۰۰ میلیارد کلمه آموزش داده شد. در ذهن داشته باشید که کودکان تا سن ۱۰ سالگی تقریباً با ۱۰۰ میلیون کلمه روبه رو خواهد شد.

در طول شش سال قبل، OpenAI، شرکت گسترش‌دهنده‌ی ChatGPT به‌طور مداوم سایز مدل‌های زبانی خود را افزایش داده است. هرچه مدل‌ها بزرگ‌تر خواهد شد، قاعدتاً باید در کارهای مرتبط با زبان نیز بهتر عمل کنند. این کار درصورتی محقق می‌بشود که مقدار داده‌های آموزشی را با یک فاکتور شبیه افزایش دهند. برای آموزش مدل‌های زبانی بزرگ‌تر با داده‌های زیاد تر، مسلماً به قوت پردازش و محاسباتی بالاتری نیاز داریم.

نخستین مدل زبانی شرکت OpenAI در سال ۲۰۱۸ با نام GPT-1 انتشار شد که از بردارهای کلمه ۷۶۸ بُعدی منفعت گیری می‌کرد و دارای ۱۲ لایه برای مجموع ۱۱۷ میلیون پارامتر می بود. دو سال سپس مدل GPT-3 با بردارهای کلماتی ۱۲,۲۸۸ بعدی در ۹۶ لایه و ۱۷۵ میلیارد پارامتر معارفه شد. سال ۲۰۲۳ سال اراعه‌ی GPT-4 می بود که مقیاس زیاد بزرگ‌تری نسبت به همتای قبلی خود داشت. هر مدل نه‌تنها حقایق بیشتری را نسبت به پیشینیان کوچک‌تر خود آموخت، بلکه در کارهایی که به نوعی استدلال انتزاعی نیاز دارند نیز بهتر عمل کرد.

به داستان زیر دقت کنید:

یک کیسه‌ی پر از پاپ‌کورن وجود دارد که داخل آن هیچ شکلاتی نیست. بااین‌حال روی کیسه نوشته شده: «شکلات». سارا این کیسه را اشکار می‌کند. او قبلاً این کیسه را ندیده و نمی‌بیند که چه چیزی داخل آن است. او برچسب را می‌خواند.

به گمان زیادً گمان می‌زنید که سارا باور می‌کند در کیسه شکلات است و هنگامی پاپ‌کورن‌ها را می‌بیند شگفت‌زده می‌بشود. روان‌شناسان قابلیت استدلال انسان در رابطه حالات روانی افراد دیگر را «نظریه‌ی ذهن» (ToM) می‌نامند. عموم انسان‌ها از سنین مدرسه ابتدایی از این توانایی برخوردارند و مطابق تحقیقات این قابلیت برای شناخت اجتماعی انسان اهمیت دارد.

آخرین نسخه GPT-3 در روبه رو با مسائل «تئوری ذهن» همانند یک کودک ۷ ساله عمل می‌کرد

مایکل کوسینسکی روانشناس استنفورد سال قبل تحقیقی را انتشار کرد که در آن توانایی مدل‌های زبانی گوناگون را در حل مسائلی با محوریت نظریه ذهن مورد بازدید قرار داده می بود. او متن‌هایی همانند داستان بالا را به LLMها داده می بود و از آن‌ها خواسته می بود جمله‌ی «او فکر می‌کند کیسه پر از … است» را کامل کنند. ما می‌دانیم جواب صحیح شکلات است، ولی گمان دارد مدل‌های زبانی ساده‌تر جمله را با «پاپ‌کورن» کامل کنند.

مدل‌های زبانی GPT-1 و GPT-2 در این آزمایش ناکامی خوردند، اما نخستین نسخه‌ی GPT-3 چهل درصد از سوال‌ها را به‌درستی جواب داده می بود. آخرین نسخه‌ی GPT-3 این نرخ را به ۹۰ درصد ارتقا داد، یعنی همانند یک کودک ۷ ساله. GPT-4 نزدیک به ۹۵ درصد از سؤالات نظریه ذهن را به‌درستی جواب داد.

[ad_2]

منبع