[ad_1]
هنگامیکه یک نورون با یکی از الگوها مطابقت اشکار کرد، اطلاعاتی را به بردار کلمه اضافه میکند. گرچه تفسیر این اطلاعات همیشه آسان نیست، در تعداد بسیاری از موارد میتوانید آن را بهگفتن یک پیشبینی آزمایشی در رابطه کلمه بعدی درنظر بگیرید.
شبکههای پیشخور با بردارهای ریاضیاتی استدلال میکنند
تحقیقات تازه دانشگاه براون، مثال جالبی از نحوهی پشتیبانی لایههای پیشخور به پیشبینی کلمات بعدی اراعه میکند. در قسمتهای قبل به تحقیق word2vec گوگل اشاره کردیم که برای استدلال قیاسی از محاسبات برداری منفعت گیری میکرد. برای مثالً با محاسبهی نسبت برلین به آلمان، پاریس را به فرانسه نسبت میداد. به نظر میرسد که لایههای فید فوروارد دقیقاً از همین روش برای پیشبینی کلمهی بعدی منفعت گیری میکنند. محققان سؤالی را از یک مدل ۲۴ لایهای GPT-2 پرسیدند و سپس کارکرد لایهها را مورد مطالعه قرار دادند.
سوال: پایتخت فرانسه کجا است؟ جواب: پاریس. سوال: پایتخت لهستان کجا است؟ جواب:؟
در ۱۵ لایهی اول، بهترین گمان مدل زبانی، واژهای اتفاقی می بود. بین لایههای ۱۶ تا ۱۹ مدل پیشبینی کرد که کلمهی بعدی لهستان است. پاسخی که درست نبوده است، اما دستکم ربط اندکی به نوشته داشت. سپس در لایهی بیستم بهترین گمان به «ورشو» تحول کرد و در چهار لایهی آخر بدون تحول باقی ماند. در واقع، لایهی بیستم برداری را اضافه کرد که کشورها را به پایتخت متناظرشان متصل میکند. در همین مدل، لایههای پیشخور با منفعت گیری از محاسبات برداری، کلمات کوچک را به بزرگ و واژههای زمان حال را به زمان قبل تبدیل میکردند.
لایههای دقت و پیشخور ماموریت های مختلفی دارند
تا اینجا ما دو مثالی واقعی از پیشبینی کلمات توسط GPT-2 را بازدید کردهایم: تکمیل جملهی جان به مری نوشیدنی داد، به پشتیبانی سرهای دقت و نقش لایهی پیشخور در این که ورشو پایتخت لهستان است.
در مثال اول، واژهی مری از پرامپت یا دستور متنی اراعه شده توسط کاربر استخراج میشد، اما در مثال دوم واژهی ورشو در دستور متنی نیامده می بود. مدل زبانی باید این حقیقت را «به یاد میآورد» که ورشو پایتخت لهستان است، یعنی از اطلاعاتی که از دادههای آموزشی پیدا کرده می بود.
وقتیکه محققان دانشگاه براون لایهی پیشخوری که ورشو را به لهستان متصل میکرد، غیرفعال کردند، دیگر مدل زبانی واژه ورشو را بهگفتن کلمهی بعدی پیشبینی نمیکرد. اما هنگامی جملهی «ورشو پایتخت لهستان است» را به ابتدای پرامپت اضافه کردند، مدل مجدد پیشبینی درستی اراعه داد؛ به گمان زیادً به این علت که مدل زبانی از سرهای دقت برای کپیکردن «ورشو» منفعت گیری میکرد.
بعد ما با یک «تقسیم کار» اشکار روبه روایم: سرهای دقت اطلاعات را از کلمات قبلی پرامپت بازیابی میکنند، درحالیکه لایههای پیشخور به مدلهای زبانی امکان خواهند داد اطلاعاتی را که در دستور متنی نیست، «به یاد بیاورند».
مکانیزم «دقت» با کپی کردن کلمات از دستور متنی پیش میرود، اما مکانیزم پیشخور اطلاعاتی را که در دستور متنی نیست به یاد میآورد
ما میتوانیم لایههای پیشخور را بهگفتن پایگاه دادهای فکر کنیم که اطلاعات حاضر در آن، از دادههای آموزشی قبلی مدل زبانی جمعآوری شده است. بهگمانزیاد لایههای ابتدایی پیشخور حقایق سادهی مرتبط با کلمات خاص را رمزگذاری میکنند، برای مثال «جابز سپس از استیو میآید» و لایههای بالاتر روابط پیچیدهتری را مدیریت میکنند؛ همانند اضافهکردن یک بردار برای تبدیل یک سرزمین به پایتخت آن.
نحوه آموزش مدلهای زبانی
تعداد بسیاری از الگوریتمهای اولیهی یادگیری ماشین به مثالهای آموزشی با برچسبگذاری انسانی نیاز داشتند. برای مثال دادههای آموزشی میتوانست عکسهایی از سگ یا گربه با برچسبهای «سگ» و «گربه» برای هر عکس باشد. یکی از دلایلی که تشکیل مجموعههای دادههای بزرگ برای آموزش الگوریتمهای قوی را پرهزینه و دشوار میکرد، همین نیاز به برچسبگذاری دادهها توسط نیروی انسانی می بود.
یکی از نوآوریهای کلیدی LLMها این است که به دادههای مشخصا برچسبگذاری شده نیاز ندارند. آنها با تلاش برای پیشبینی کلمهی سپس آموزش میبینند یا به کلمه، «ترین» (train) خواهد شد. تقریباً هر نوشته نوشتاری، از صفحات ویکیپدیا گرفته تا مقالههای خبری و کدهای رایانهای، برای آموزش این مدلها مناسب است.
بهگفتنمثال، امکان پذیر یک LLM با دریافت ورودی «من قهوهام را با خامه و -» واژهی «شکر» را بهگفتن کلمهی بعدی پیشبینی کند. یک مدل زبانی که بهتازگی مقداردهی اولیه شده، در این عرصه واقعاً بد عمل میکند؛ چون هر یک از پارامترهای وزنی آن تحت یک عدد کاملاً اتفاقی کار خود را اغاز میکند. اما هنگامی همین مدل مثالهای زیاد بیشتری را مشاهده میکند (صدها میلیارد کلمه) این وزنها بهمرور زمان تنظیم خواهد شد و پیشبینیهای دقیقتر و بهتری حاصل میبشود.
جادوی LLM در این است که به دادههای برچسبگذاری شده نیاز ندارد
برای فهمیدن بهتر این نوشته، فکر کنید میخواهید با آب ولرم دوش بگیرید. شما قبلاً با این شیر آب کار نکردهاید و علامتی هم روی آن مشاهده نمیکنید. بعد دستگیره را به طور اتفاقی به یک سمت میچرخانید و دما را حس میکنید. اگر آب زیاد داغ می بود، آن را به یک طرف و اگر آب زیاد سرد می بود آن را بهطرف دیگر میچرخانید. هرچه به دمای مناسب نزدیکتر شوید، تغییرات کوچکتری میدهید.
اکنون بیایید چند تحول در این مثال بهوجود آوریم. ابتدا فکر کنید که به جای یک شیر، ۵۰,۲۵۷ شیر آب وجود دارد. هر شیر آب به کلمهی متغیری نظیر «خامه»، «قهوه» یا «شکر» مربوط میبشود و مقصد شما این است که آب به طور متوالی از سردوشهای مرتبط با کلمات بعدی خارج بشود.
یقیناً پشت شیرهای آب یک شبکهی پرپیچوخم و مارپیچی از لولههای بههم متصل وجود دارد و لولهها نیز دارای دریچههای بسیاری می باشند. بههمینعلت اگر آب از سردوش اشتباهی خارج بشود، مشکل شما فقطً با تنظیم دستگیره شیر حل نمیبشود. شما ارتشی از سنجابهای هوشمند را اعزام میکنید تا لولهها را روبهعقب ردیابی کنند و هر دریچهای را که در مسیر میبینند، تنظیم نمایند. ازآنجاکه یک لوله به چندین سردوش آب میرساند، کار مقداری پیچیدهتر میبشود. باید بهدقت فکر کنیم تا بفهمیم کدام دریچهها را به چه مقدار شل یا سفت کنیم.
ما نمیتوانیم این مثال را به دنیای واقعی بیاوریم، چون ساخت شبکهای از لولههای مارپیچ با ۱۷۵ میلیارد دریچه، اصلاً واقعبینانه یا حتی سودمند نیست. اما کامپیوترها به لطف قانون مور میتوانند در این مقیاس عمل کنند.
همه قسمتهای LLM که تا کنون در رابطه آنها سخن بگویید کردیم یعنی نورونها در لایههای پیشخور و سرهای دقت که اطلاعات متنی را بین کلمات جابهجا میکنند، بهگفتن زنجیرهای از توابع ریاضی ساده (عمدتا ضربهای ماتریسی) عمل میکنند و رفتارشان با پارامترهای وزنیِ تعدیلپذیر تعیین میبشود. همانطور که سنجابهای داستان ما برای کنترل جریان آب دریچهها را باز و بسته میکردند، الگوریتم آموزشی نیز با افزایش یا افت پارامترهای وزنی، نحوهی جریان اطلاعات در شبکه عصبی را کنترل میکند.
فرایند آموزش مدلها در دو مرحله انجام میبشود: ابتدا مرحلهی «انتشار کردن رو به جلو» که در آن شیر آب باز میبشود و شما بازدید میکنید که آیا آب از شیر خارج میبشود یا خیر. سپس آب قطع میبشود و مرحله «انتشار کردن به عقب» اتفاق میافتد، همانند همان وقتی که سنجابهای هوشمند مسیر لولهها را بازدید و دریچهها را باز یا بسته میکنند. در شبکههای عصبی دیجیتال، نقش سنجابها را الگوریتمی به نام Backpropagation ایفا میکند که با محاسبات ریاضی مقدار تحول هر پارامتر وزنی را تخمین میزند و در طول شبکه به عقب حرکت میکند.
تکمیل این فرایند انتشار کردن رو بهجلو با یک نمونه و سپس انتشار کردن رو بهعقب برای بهبود کارکرد شبکه از طریق مثالی فوق، به صدها میلیارد عملیات ریاضی نیاز دارد. آموزش مدلهای زبانی بزرگ نیز الزام تکرار این فرایند در مثالها و مثالهای زیاد بسیاری است.
کارکرد شگفتانگیز مدلهای زبانی بزرگ
احتمالا برای شما سوال باشد که چطور فرایند آموزش مدلهای هوش مصنوعی با وجود محاسبات بیشمار تا این حد خوب کار میکند. این روزها هوش مصنوعی مولد کارهای مختلفی را برای ما انجام میدهد، همانند نوشتن مقاله، تشکیل عکس یا کدنویسی. چطور این مکانیزم یادگیری میتواند این چنین مدلهای قدرتمندی خلق کند؟
یکی از با اهمیت ترین دلایل این کار گسترهی دادههای آموزشی است. ما بهسختی میتوانیم تعداد مثالها یا نرخ دادههایی را که مدلهای زبانی بزرگ بهگفتن ورودی آموزشی دریافت میکنند، در ذهنمان تجسم کنیم. دو سال پیش GPT-3 روی مجموعهای شامل ۵۰۰ میلیارد کلمه آموزش داده شد. در ذهن داشته باشید که کودکان تا سن ۱۰ سالگی تقریباً با ۱۰۰ میلیون کلمه روبه رو خواهد شد.
در طول شش سال قبل، OpenAI، شرکت گسترشدهندهی ChatGPT بهطور مداوم سایز مدلهای زبانی خود را افزایش داده است. هرچه مدلها بزرگتر خواهد شد، قاعدتاً باید در کارهای مرتبط با زبان نیز بهتر عمل کنند. این کار درصورتی محقق میبشود که مقدار دادههای آموزشی را با یک فاکتور شبیه افزایش دهند. برای آموزش مدلهای زبانی بزرگتر با دادههای زیاد تر، مسلماً به قوت پردازش و محاسباتی بالاتری نیاز داریم.
نخستین مدل زبانی شرکت OpenAI در سال ۲۰۱۸ با نام GPT-1 انتشار شد که از بردارهای کلمه ۷۶۸ بُعدی منفعت گیری میکرد و دارای ۱۲ لایه برای مجموع ۱۱۷ میلیون پارامتر می بود. دو سال سپس مدل GPT-3 با بردارهای کلماتی ۱۲,۲۸۸ بعدی در ۹۶ لایه و ۱۷۵ میلیارد پارامتر معارفه شد. سال ۲۰۲۳ سال اراعهی GPT-4 می بود که مقیاس زیاد بزرگتری نسبت به همتای قبلی خود داشت. هر مدل نهتنها حقایق بیشتری را نسبت به پیشینیان کوچکتر خود آموخت، بلکه در کارهایی که به نوعی استدلال انتزاعی نیاز دارند نیز بهتر عمل کرد.
به داستان زیر دقت کنید:
یک کیسهی پر از پاپکورن وجود دارد که داخل آن هیچ شکلاتی نیست. بااینحال روی کیسه نوشته شده: «شکلات». سارا این کیسه را اشکار میکند. او قبلاً این کیسه را ندیده و نمیبیند که چه چیزی داخل آن است. او برچسب را میخواند.
به گمان زیادً گمان میزنید که سارا باور میکند در کیسه شکلات است و هنگامی پاپکورنها را میبیند شگفتزده میبشود. روانشناسان قابلیت استدلال انسان در رابطه حالات روانی افراد دیگر را «نظریهی ذهن» (ToM) مینامند. عموم انسانها از سنین مدرسه ابتدایی از این توانایی برخوردارند و مطابق تحقیقات این قابلیت برای شناخت اجتماعی انسان اهمیت دارد.
آخرین نسخه GPT-3 در روبه رو با مسائل «تئوری ذهن» همانند یک کودک ۷ ساله عمل میکرد
مایکل کوسینسکی روانشناس استنفورد سال قبل تحقیقی را انتشار کرد که در آن توانایی مدلهای زبانی گوناگون را در حل مسائلی با محوریت نظریه ذهن مورد بازدید قرار داده می بود. او متنهایی همانند داستان بالا را به LLMها داده می بود و از آنها خواسته می بود جملهی «او فکر میکند کیسه پر از … است» را کامل کنند. ما میدانیم جواب صحیح شکلات است، ولی گمان دارد مدلهای زبانی سادهتر جمله را با «پاپکورن» کامل کنند.
مدلهای زبانی GPT-1 و GPT-2 در این آزمایش ناکامی خوردند، اما نخستین نسخهی GPT-3 چهل درصد از سوالها را بهدرستی جواب داده می بود. آخرین نسخهی GPT-3 این نرخ را به ۹۰ درصد ارتقا داد، یعنی همانند یک کودک ۷ ساله. GPT-4 نزدیک به ۹۵ درصد از سؤالات نظریه ذهن را بهدرستی جواب داد.
[ad_2]
منبع





