الگوریتم SMITH Google از BERT بهتر عمل می کند؟

الگوریتم جدید Google SMITH محتوای فرم طولانی را بهتر از BERT می فهمد.
گوگل اخیراً مقاله تحقیقی درباره الگوریتم جدیدی به نام SMITH منتشر کرده است که ادعا می کند برای درک سوالات طولانی و اسناد طولانی از BERT بهتر عمل میکند. به طور خاص ، آنچه این مدل جدید را بهتر می کند این است که قادر به درک مقاطع داخل اسناد است به همان روشی که BERT کلمات و جملات را می فهمد ، که الگوریتم را قادر می سازد اسناد طولانی تر را درک کند
آیا Google از الگوریتم SMITH استفاده می کند؟
گوگل به طور کلی نمی گوید که از الگوریتم های خاصی استفاده می کند. اگرچه محققان می گویند که این الگوریتم از BERT بهتر عمل می کند ، اما تا زمانی که گوگل به طور رسمی اعلام کند که الگوریتم SMITH برای درک مقاطع موجود در صفحات وب در حال استفاده است ، گفتن اینکه آیا از این الگوریتم استفاده می شود یا خیر ، کاملاً گمانه زنی است.
الگوریتم SMITH چیست؟
SMITH مدل جدیدی برای تلاش ، برای درک کامل اسناد است. مدل هایی مانند BERT برای درک کلمات در متن جملات آموزش دیده اند. در یک توصیف بسیار ساده ، مدل SMITH آموزش داده شده است تا قسمت هایی از متن کل سند را درک کند. در حالی که الگوریتم هایی مانند BERT در مجموعه داده ها آموزش داده میشوند تا کلمات پنهان شده به طور تصادفی از متن درون جملات پیش بینی شوند ، الگوریتم SMITH برای پیش بینی اینکه مجموعه بعدی جملات چیست آموزش دیده است. به گفته محققان ، این نوع آموزش به الگوریتم کمک می کند تا اسناد بزرگتر را بهتر از الگوریتم BERT درک کند.
الگوریتم BERT محدودیت هایی دارد آنها به این ترتیب نواقص BERT را ارائه میدهند: “در سالهای اخیر ، مدلهای مبتنی بر توجه به خود مانند :
Transformers ، BERT performance و… در کار تطبیق متن به عملکرد پیشرفته ای رسیده اند. این مدل ها ، به دلیل پیچیدگی محاسباتی درجه دوم توجه به خود ، با توجه به طول متن ورودی ، هنوز محدود به متن کوتاه مانند چند جمله یا یک پاراگراف هستند. در این مقاله ، ما با پیشنهاد رمزگذار سیامسی مبتنی بر ترانسفورماتور سلسله مراتبی (SMITH) برای تطبیق طولانی مدت سند ، به این مسئله می پردازیم. مدل ما شامل چندین نوآوری برای انطباق مدل های توجه به خود برای ورود متن بیشتر است. ”
به گفته محققان ، الگوریتم BERT محدود به درک اسناد کوتاه است. به دلایل مختلف توضیح داده شده در مقاله تحقیق ، BERT برای درک اسناد بلند مناسب نیست. محققان الگوریتم جدید خود را پیشنهاد می دهند که به گفته آنها با اسناد طولانی تر از BERT بهتر عمل می کند
آنها سپس دلیل دشوار بودن اسناد طولانی را توضیح می دهند: “… مطابقت معنایی بین متن های طولانی به چند دلیل کار چالش برانگیزی است:
- هر دو متن طولانی هستند ، مطابقت آنها مستلزم درک دقیق تری از روابط معنایی از جمله الگوی تطبیق بین قطعات متن با فاصله طولانی است.
- اسناد طولانی شامل ساختار داخلی مانند بخش ها ، متن ها و جملات هستند. برای خوانندگان بشری ، ساختار اسناد معمولاً نقشی اساسی در درک مطلب دارد. به همین ترتیب ، یک مدل برای عملکرد بهتر تطبیق اسناد نیز باید اطلاعات ساختار سند را در نظر بگیرد.
- پردازش متون طولانی احتمالاً باعث ایجاد موارد عملی مانند خارج از حافظه TPU / GPU بدون طراحی دقیق مدل میشود. “
متن ورودی بزرگتر BERT محدود به طولانی بودن اسناد است. همانطور که در پایین مشاهده خواهید کرد ، SMITH هرچه سند و متن طولانی تر باشد عملکرد بهتری دارد.
این یک نقص شناخته شده با BERT است. آنها اینگونه توضیح می دهند:
“نتایج تجربی چندین داده معیار ، برای تطبیق متن با فرم طولانی… نشان می دهد که مدل SMITH پیشنهادی ما نسبت به مدلهای پیشرفته قبلی بهتر عمل می کند و هنگام مقایسه با مبانی BERT ، حداکثر طول متن ورودی را از 512 به 2048 افزایش میدهد.
این حقیقت که SMITH قادر به انجام کاری است که BERT قادر به انجام آن نیست ، همان چیزی است که مدل SMITH را جذاب می کند. مدل SMITH جای BERT را نمی گیرد. مدل SMITH با انجام سنگین وزنه برداری که BERT قادر به انجام آن نیست ، BERT را مکمل می کند.
محققان آن را آزمایش کردند و گفتند: “نتایج تجربی ما در چندین مجموعه داده معیار ، برای تطبیق طولانی مدت اسناد نشان می دهد که مدل SMITH پیشنهادی ما از مدل های پیشرفته قبلی از جمله توجه سلسله مراتبی ، شبکه عصبی سلسله مراتبی مبتنی بر توجه چند منظوره و BERT بهتر عمل می کند. . در مقایسه با خطوط مبنای BERT ، مدل ما قادر است حداکثر طول متن ورودی را از 512 به 2048 افزایش دهد. “
تطبیق طولانی:
اگر ما مقاله تحقیق را به درستی درک کنیم ، مقاله تحقیق بیان می کند که مشکل تطبیق پرس و جوهای طولانی با محتوای طولانی به اندازه کافی بررسی نشده است.
به گفته محققان: “از نظر دانش ما ، مطابقت معنایی بین جفت اسناد طولانی ، که دارای کاربردهای مهم بسیاری مانند توصیه های خبری ، توصیه مقاله های مرتبط و خوشه بندی اسناد است ، کمتر مورد بررسی قرار گرفته و نیاز به تلاش بیشتری دارد.
” بعداً در این سند آنها اظهار داشتند كه برخی مطالعات انجام شده است كه نزدیك به آنچه آنها تحقیق می كنند بوده است. اما به طور کلی به نظر می رسد در تحقیق در مورد روش های تطبیق جستجوهای طولانی با اسناد طولانی یک شکاف وجود دارد. این مسئله ای است که محققان با الگوریتم SMITH در حال حل آن هستند.
جزئیات Google’s SMITH :
در اینجا عمیق به جزئیات الگوریتم نمی پردازیم اما برخی از ویژگیهای کلی را که نمای سطح بالایی ، از آنچه در آن است را بیان می کنیم. این سند توضیح می دهد که آنها از یک مدل قبل از آموزش استفاده می کنند که شبیه BERT و بسیاری از الگوریتم های دیگر است. ابتدا کمی اطلاعات پیش زمینه ای داشته باشید تا سند معنی بیشتری پیدا کند.
الگوریتم قبل از آموزش ، پیش آموزش جایی است ، که یک الگوریتم روی یک مجموعه داده ، آموزش داده می شود. برای پیش آموزش معمول این نوع الگوریتم ها ، مهندسان کلمات تصادفی را درون جملات مخفی می کنند (پنهان می کنند). الگوریتم سعی می کند کلمات نقاب دار را پیش بینی کند.
پیش آموزش به منظور آموزش دقیق و اشتباه بودن دستگاه انجام می شود.
این مقاله چه می گوید:
“با الهام از موفقیت اخیر روشهای پیش آموزش مدل زبان مانند BERT ، SMITH همچنین الگوی” قبل از آموزش بدون نظارت + تنظیم دقیق “را برای آموزش مدل اتخاذ می کند.
برای پیش آموزش مدل SMITH ، ما علاوه بر وظیفه اصلی مدل سازی زبان کلمه ای مخفی شده که در BERT برای ورودی متن طولانی استفاده می شود ، وظیفه مدل سازی زبان بلوک جمله ای مخفی را نیز پیشنهاد می دهیم. ”
بلوک جملات در پیش آموزش پنهان است:
در اینجا جایی است که محققان یک بخش کلیدی از الگوریتم را توضیح می دهند ، اینکه چگونه روابط بین بلوک های جمله در یک سند برای درک اینکه یک سند در طی مراحل قبل از آموزش چیست استفاده می شود.
وقتی متن ورودی طولانی می شود ، هر دو رابطه بین کلمات در یک بلوک جمله و روابط بین بلوک های جمله در یک سند برای درک مطلب مهم می شوند.
بنابراین ، ما در حین پیش آموزش مدل کلمات و بلوک های جمله را که به طور تصادفی انتخاب شده ایم ، مخفی می کنیم.
محققان در ادامه با جزئیات بیشتری توضیح می دهند که چگونه این الگوریتم از الگوریتم BERT فراتر و فراتر می رود.
کاری که آنها انجام می دهند این است که آموزش را افزایش می دهند تا فراتر از آموزش کلمه برای استفاده از جملات استفاده کنند.
نحوه توصیف آن در سند تحقیق به شرح زیر است:
“علاوه بر وظیفه پیش بینی کلمه نقابدار در BERT ، ما وظیفه پیش بینی بلوک جمله پوشیده را ، برای یادگیری روابط بین بلوک های مختلف جمله پیشنهاد می دهیم.”
الگوریتم SMITH برای پیش بینی مجموعه جملات ، آموزش دیده است. احساس شخصی مان در مورد آن بسیار جالب است.
این الگوریتم یادگیری روابط بین کلمات و سپس تراز کردن برای یادگیری متن مجموعه جملات و نحوه ارتباط آنها با یکدیگر در یک سند طولانی است.
این بخش تحت عنوان ، “پیش بینی بلوک جملات پوشیده” جزئیات بیشتری در مورد روند کار ارائه می دهد
نتایج آزمون SMITH:
محققان متذکر شدند که SMITH با اسناد متنی طولانی تر عملکرد بهتری دارد.
“مدل SMITH که از طول متن ورودی بیشتری در مقایسه با سایر مدلهای استاندارد توجه به خود برخوردار است ، انتخاب بهتری برای یادگیری و تطبیق نمایش اسناد طولانی است.”
در پایان ، محققان نتیجه گرفتند که الگوریتم SMITH برای اسناد طولانی مدت بهتر از BERT عمل می کند.
چرا مقاله تحقیقاتی SMITH مهم است
یکی از دلایلی که ما مطالعه مقاله های پژوهشی را نسبت به حق ثبت اختراع ترجیح میدهیم این است که مقالات ، تحقیق جزئیاتی را در مورد اینکه آیا مدل پیشنهادی بهتر از مدل های موجود و پیشرفته است ، به اشتراک می گذارند.
بسیاری از مقالات پژوهشی با بیان اینکه کار بیشتری باید انجام شود نتیجه گیری میکنند. برای مان این بدان معنی است که آزمایش الگوریتم امیدوار کننده است اما احتمالاً آماده نیست تا در یک محیط زنده قرار گیرد.
درصد کمتری از مقالات پژوهشی می گویند که ، نتایج بهتر از سطح معمول هستند. اینها مقاله های پژوهشی هستند که به نظر ما ارزش توجه به آنها را دارند زیرا احتمال دارد که به الگوریتم گوگل تبدیل شوند.
وقتی می گویم likelier ، منظور مان این نیست که الگوریتم در الگوریتم Google است یا خواهد بود. منظورما این است که ، در مقایسه با سایر آزمایش های الگوریتم ، مقالاتی که ادعا میکنند از عملکرد روز ، بهتر عمل می کنند . در نتیجه احتمالاً آن را به الگوریتم Google تبدیل می کنند.
SMITH برای اسناد فرم طولانی از BERT بهتر عمل می کند
با توجه به نتیجه گیری های انجام شده در مقاله تحقیق ، مدل SMITH برای درک محتوای طولانی از بسیاری از مدل ها از جمله BERT پیشی می گیرد.
“نتایج تجربی چندین مجموعه داده معیار نشان می دهد که مدل SMITH پیشنهادی ما نسبت به مدلهای مطابق سیامی پیشرفته قبلی از جمله HAN ، SMASH و BERT برای مطابقت طولانی مدت اسناد ، بهتر عمل می کند. علاوه بر این ، مدل پیشنهادی ما در مقایسه با روشهای پایه مبتنی بر BERT ، حداکثر طول متن ورودی را از 512 به 2048 افزایش می دهد. “
آیا SMITH استفاده می شود؟
همانطور که قبلاً نوشتیم ، تا زمانی که Google به صراحت اعلام کند از SMITH استفاده می کند ، هیچ راهی برای بیان دقیق اینکه مدل SMITH در Google استفاده میشود وجود ندارد. گفته شد ، مقالاتی که به احتمال زیاد مورد استفاده قرار نمی گیرند ، مقاله هایی هستند که به صراحت بیان می کنند که یافته ها اولین قدم به سمت نوع جدیدی از الگوریتم است و تحقیقات بیشتر لازم است.نویسندگان مقاله تحقیق با اطمینان اظهار داشتند که SMITH برای درک محتوای طولانی مدت ، سطح معمول را شکست می دهد.
اطمینان به نتایج و عدم وجود گزاره ای درباره نیاز به تحقیقات بیشتر ، این مقاله را جالبتر از سایر مطالب می کند و بنابراین در صورت قرار گرفتن در الگوریتم Google در آینده یا در حال حاضر ، ارزش دانستن را دارد.
ترجمه مقاله:
پوریا سلوتی(مدرس و مشاور SEO)
محمد علینژاد(مدرس و مشاور E_BUSINESS)
دیدگاهتان را بنویسید