Ежедневно отобранные исследовательские статьи по ИИ с переводами
Языковые модели (ЯМ) являются мощными инструментами для обработки естественного языка, однако они часто испытывают трудности с генерацией связного и беглого текста, когда их размеры невелики. Модели с примерно 125 миллионами параметров, такие как GPT-Neo (малая) или GPT-2 (малая), редко способны генерировать связный и последовательный текст на английском языке, выходящий за пределы нескольких слов, даже после длительного обучения. Это поднимает вопрос о том, возникает ли способность к созданию связного текста на английском языке только на более крупных масштабах (с сотнями миллионов параметров или более) и в сложных архитектурах (с множеством слоев глобального внимания). В данной работе мы представляем TinyStories — синтетический набор данных, состоящий из коротких рассказов, которые содержат только слова, обычно понятные детям в возрасте от 3 до 4 лет, сгенерированные моделями GPT-3.5 и GPT-4. Мы показываем, что TinyStories может быть использован для обучения и оценки языковых моделей, которые значительно меньше современных моделей (менее 10 миллионов параметров) или имеют гораздо более простую архитектуру (с одним трансформерным блоком), но при этом способны генерировать беглые и последовательные рассказы, состоящие из нескольких абзацев, которые отличаются разнообразием и почти идеальной грамматикой, а также демонстрируют способности к логическому рассуждению. Мы также представляем новую парадигму для оценки языковых моделей: предлагаем подход, в котором GPT-4 оценивает контент, сгенерированный этими моделями, как если бы это были рассказы, написанные учениками и оцененные (человеческим) учителем. Эта новая парадигма преодолевает недостатки стандартных тестов, которые часто требуют, чтобы вывод модели был строго структурирован, и, более того, предоставляет многомерную оценку модели, учитывая такие аспекты, как грамматика, креативность и последовательность. Мы надеемся, что TinyStories сможет способствовать разработке, анализу и исследованиям языковых моделей, особенно в условиях ограниченных ресурсов или специализированных областей, а также прольет свет на возникновение языковых способностей в ЯМ.
Мы представляем SoundStorm — модель для эффективной неавторегрессивной генерации аудио. SoundStorm принимает на вход семантические токены AudioLM и использует двунаправленное внимание и параллельное декодирование на основе уверенности для генерации токенов нейронного аудиокодека. По сравнению с авторегрессивным подходом генерации AudioLM, наша модель создает аудио того же качества, но с большей согласованностью голоса и акустических условий, при этом работая на два порядка быстрее. SoundStorm генерирует 30 секунд аудио за 0,5 секунды на TPU-v4. Мы демонстрируем способность нашей модели масштабировать генерацию аудио на более длинные последовательности, синтезируя высококачественные, естественные диалоговые сегменты на основе транскрипта с аннотацией смены говорящих и короткого промпта с голосами участников.
Недавние исследования показали, что существуют явные различия в языке, используемом в Dark Web, по сравнению с Surface Web. Поскольку исследования Dark Web обычно требуют текстового анализа этой области, языковые модели, специфичные для Dark Web, могут предоставить ценные данные для исследователей. В данной работе мы представляем DarkBERT — языковую модель, предварительно обученную на данных Dark Web. Мы описываем шаги, предпринятые для фильтрации и компиляции текстовых данных, используемых для обучения DarkBERT, чтобы справиться с крайним лексическим и структурным разнообразием Dark Web, которое может препятствовать построению адекватного представления этой области. Мы оцениваем DarkBERT и его базовую версию, а также другие широко используемые языковые модели, чтобы подтвердить преимущества, которые предлагает модель, специфичная для Dark Web, в различных сценариях использования. Наши оценки показывают, что DarkBERT превосходит текущие языковые модели и может стать ценным ресурсом для будущих исследований Dark Web.
Последние достижения в области искусственного интеллекта (ИИ) позволили преодолеть ключевые рубежи в решении "грандиозных задач", начиная от игры в го и заканчивая предсказанием структуры белков. Способность извлекать медицинские знания, анализировать их и отвечать на медицинские вопросы на уровне врачей долгое время считалась одной из таких задач. Крупные языковые модели (LLM) значительно продвинули решение медицинских вопросов; модель Med-PaLM стала первой, преодолевшей "проходной" балл в вопросах, аналогичных экзамену на медицинскую лицензию в США (USMLE), с результатом 67,2% на наборе данных MedQA. Однако это и другие предыдущие исследования показали значительный потенциал для улучшения, особенно при сравнении ответов моделей с ответами врачей. В данной работе мы представляем Med-PaLM 2, которая устраняет эти пробелы за счет улучшений базовой LLM (PaLM 2), тонкой настройки в медицинской области и стратегий промптинга, включая новый подход к ансамблю и уточнению. Med-PaLM 2 достигла результата до 86,5% на наборе данных MedQA, улучшив показатель Med-PaLM более чем на 19% и установив новый рекорд. Мы также наблюдали результаты, приближающиеся или превосходящие современные стандарты на наборах данных MedMCQA, PubMedQA и MMLU по клиническим темам. Мы провели детальную оценку ответов на длинные вопросы по нескольким критериям, важным для клинического применения. В парном сравнительном ранжировании 1066 медицинских вопросов от потребителей врачи предпочли ответы Med-PaLM 2 ответам, составленным врачами, по восьми из девяти критериев, связанных с клинической полезностью (p < 0,001). Мы также отметили значительные улучшения по сравнению с Med-PaLM по всем оценочным критериям (p < 0,001) на новых наборах данных из 240 длинных "адверсариальных" вопросов, направленных на выявление ограничений LLM. Хотя необходимы дальнейшие исследования для подтверждения эффективности этих моделей в реальных условиях, полученные результаты демонстрируют быстрый прогресс в достижении уровня врачей в ответах на медицинские вопросы.
Крупные языковые модели (LLM), предварительно обученные на обширных исходных кодах, достигли значительного прогресса в области интеллектуальной обработки кода. Однако существующие кодоориентированные LLM имеют два основных ограничения, связанных с архитектурой и задачами предварительного обучения. Во-первых, они часто используют специфическую архитектуру (только кодировщик или только декодировщик) или полагаются на унифицированную сеть кодировщик-декодировщик для различных задач. Первый подход ограничен недостаточной гибкостью в применении, тогда как во втором модель рассматривается как единая система для всех задач, что приводит к неоптимальной производительности на некоторых из них. Во-вторых, они часто применяют ограниченный набор задач предварительного обучения, которые могут быть нерелевантными для некоторых задач, что приводит к значительному снижению производительности. Для устранения этих ограничений мы предлагаем «CodeT5+» — семейство кодоориентированных LLM с архитектурой кодировщик-декодировщик, в котором компоненты могут гибко комбинироваться для решения широкого спектра задач. Такая гибкость обеспечивается за счет предложенной нами смеси задач предварительного обучения, направленной на минимизацию расхождений между предварительным обучением и тонкой настройкой. Эти задачи включают восстановление зашумленных фрагментов, контрастивное обучение, сопоставление текста и кода, а также задачи предварительного обучения с использованием причинных языковых моделей, применяемые как на унимодальных, так и на бимодальных многоязычных корпусах кода. Кроме того, мы предлагаем инициализировать CodeT5+ с использованием замороженных готовых LLM без обучения с нуля для эффективного масштабирования моделей, а также исследуем настройку на инструкции для согласования с естественными языковыми указаниями. Мы проводим всестороннюю оценку CodeT5+ на более чем 20 кодоориентированных бенчмарках в различных режимах, включая zero-shot, тонкую настройку и настройку на инструкции. Мы наблюдаем достижение моделями наилучших результатов (state-of-the-art, SoTA) на различных задачах, связанных с кодом, таких как генерация и завершение кода, математическое программирование и задачи поиска кода по тексту. В частности, наша модель CodeT5+ 16B, настроенная на инструкции, устанавливает новые рекорды SoTA на задаче генерации кода HumanEval среди других открытых кодоориентированных LLM.
Крупные языковые модели (LLM), такие как GPT-3 и GPT-4, обладают высокой мощностью, однако их веса часто недоступны публично, а огромные размеры моделей делают их настройку на стандартном оборудовании затруднительной. В результате эффективная настройка этих моделей с использованием крупномасштабных размеченных данных может быть сложной задачей. В качестве альтернативы, обучение в контексте (In-Context Learning, ICL) позволяет использовать лишь небольшое количество размеченных примеров из-за ограничений на длину контекста. В данной работе мы предлагаем метод Super In-Context Learning (SuperICL), который позволяет чернобоксным LLM взаимодействовать с локально настроенными меньшими моделями, что приводит к превосходной производительности на задачах с размеченными данными. Наши эксперименты показывают, что SuperICL может улучшить производительность по сравнению с современными настроенными моделями, одновременно решая проблему нестабильности обучения в контексте. Кроме того, SuperICL способен расширять возможности меньших моделей, такие как многоязычность и интерпретируемость.
Генерация движений человека на основе текстовых описаний вызывает значительный интерес благодаря своим перспективным применениям в анимации и робототехнике. В последнее время использование диффузионных моделей для генерации движений позволило улучшить качество создаваемых анимаций. Однако существующие подходы ограничены зависимостью от относительно небольших наборов данных motion capture, что приводит к низкой производительности на более разнообразных и сложных запросах. В данной статье мы представляем Make-An-Animation — модель генерации движений человека, обусловленную текстом, которая обучается на более разнообразных позах и запросах из крупномасштабных наборов данных изображений и текстов, что позволяет значительно улучшить производительность по сравнению с предыдущими работами. Make-An-Animation обучается в два этапа. Сначала модель обучается на тщательно отобранном крупномасштабном наборе данных пар (текст, статическая псевдопоза), извлеченных из наборов данных изображений и текстов. Затем модель дообучается на данных motion capture, добавляя дополнительные слои для моделирования временного измерения. В отличие от предыдущих диффузионных моделей для генерации движений, Make-An-Animation использует архитектуру U-Net, схожую с недавними моделями генерации видео на основе текста. Оценка реалистичности движений и их соответствия входному тексту показывает, что наша модель достигает наилучших результатов в задаче генерации движений на основе текста.
Диффузионные модели привлекли значительное внимание в области генерации изображений благодаря своей исключительной производительности. Их успех недавно был распространен на генерацию текста посредством одновременного создания всех токенов в последовательности. Однако естественный язык демонстрирует гораздо более выраженную последовательную зависимость по сравнению с изображениями, и большинство существующих языковых моделей обучаются с использованием авторегрессивного подхода слева направо. Чтобы учесть присущую естественному языку последовательную характеристику, мы представляем Авторегрессивную Диффузию (AR-Diffusion). AR-Diffusion обеспечивает, что генерация токенов справа зависит от уже сгенерированных токенов слева, что достигается за счет использования динамического числа шагов удаления шума, которые варьируются в зависимости от позиции токена. В результате токены слева проходят меньше шагов удаления шума, чем токены справа, что позволяет им генерироваться раньше и впоследствии влиять на генерацию токенов справа. В серии экспериментов на различных задачах генерации текста, включая суммаризацию текста, машинный перевод и генерацию здравого смысла, AR-Diffusion явно продемонстрировала превосходство над существующими диффузионными языковыми моделями, а также то, что она может быть в 100–600 раз быстрее при достижении сопоставимых результатов. Наш код будет опубликован в открытом доступе.
Мы представляем метод символической тонкой настройки (symbol tuning) — дообучение языковых моделей на парах "вход-метка" в контексте, где естественно-языковые метки (например, "положительный/отрицательный отзыв") заменяются произвольными символами (например, "foo/bar"). Символическая тонкая настройка основывается на интуиции, что если модель не может использовать инструкции или естественно-языковые метки для понимания задачи, она должна научиться этому через изучение соответствий между входными данными и метками. Мы экспериментируем с символической тонкой настройкой на моделях Flan-PaLM с числом параметров до 540 миллиардов и наблюдаем преимущества в различных сценариях. Во-первых, символическая тонкая настройка повышает производительность на задачах обучения в контексте, которые модель ранее не видела, и делает модель значительно более устойчивой к недостаточно специфицированным запросам, таким как те, в которых отсутствуют инструкции или естественно-языковые метки. Во-вторых, модели, прошедшие символическую тонкую настройку, демонстрируют значительно лучшие результаты в задачах алгоритмического мышления, с улучшением до 18,2% на бенчмарке List Functions и до 15,3% на бенчмарке Simple Turing Concepts. Наконец, такие модели показывают значительные улучшения в следовании перевернутым меткам, представленным в контексте, что означает их повышенную способность использовать контекстную информацию для переопределения ранее усвоенных семантических знаний.
Система рекомендаций с поддержкой диалога (Conversational Recommender System, CRS) предоставляет пользователям повышенную прозрачность и контроль, позволяя взаимодействовать с системой через многоходовый диалог в реальном времени. В последнее время крупные языковые модели (Large Language Models, LLMs) продемонстрировали беспрецедентную способность вести естественные беседы, включая знания о мире и здравый смысл в понимание языка, что открывает новые возможности для этой парадигмы. Однако эффективное использование LLMs в CRS ставит новые технические задачи, включая правильное понимание и управление сложным диалогом, а также извлечение информации из внешних источников. Эти проблемы усугубляются большим и постоянно меняющимся набором элементов, а также отсутствием данных для обучения на основе диалогов. В данной статье мы предлагаем дорожную карту для создания масштабируемой CRS с использованием LLMs. В частности, мы предлагаем новые реализации для понимания предпочтений пользователей, гибкого управления диалогом и объяснимых рекомендаций в рамках интегрированной архитектуры, основанной на LLMs. Для улучшения персонализации мы описываем, как LLM может использовать интерпретируемые профили пользователей на естественном языке и применять их для модуляции контекста на уровне сессии. Чтобы преодолеть ограничения данных для диалогов в отсутствие существующей производственной CRS, мы предлагаем методы создания управляемого симулятора пользователя на основе LLM для генерации синтетических диалогов. В качестве доказательства концепции мы представляем RecLLM — масштабируемую CRS для рекомендаций видео на YouTube, построенную на основе LaMDA, и демонстрируем её беглость и разнообразные функциональные возможности на примере нескольких иллюстративных диалогов.
Обучение в контексте, при котором предварительно обученные языковые модели учатся выполнять задачи на основе примеров и инструкций, представленных в их контексте, привлекло значительное внимание в сообществе NLP. Однако потенциал обучения в контексте не полностью раскрыт, поскольку языковые модели не обучаются явным образом для такого типа обучения. С этой целью мы предлагаем PICL (Pre-training for In-Context Learning) — фреймворк для улучшения способности языковых моделей к обучению в контексте путем предварительного обучения модели на большом наборе "внутренних задач" в общем корпусе текстов с использованием простой задачи языкового моделирования. PICL побуждает модель выводить и выполнять задачи, основываясь на контексте, сохраняя при этом обобщающую способность предварительно обученных моделей. Мы оцениваем производительность модели, обученной с помощью PICL, на семи широко используемых наборах данных для классификации текстов и на бенчмарке Super-NaturalInstructions, который содержит более 100 задач NLP, сформулированных как задачи генерации текста. Наши эксперименты показывают, что PICL более эффективен и лучше обобщает задачи по сравнению с рядом базовых моделей, превосходя более крупные языковые модели с почти в 4 раза большим количеством параметров. Код доступен по адресу https://github.com/thu-coai/PICL.
Полностью автоматизированный конвейер реконструкции объектов имеет ключевое значение для создания цифрового контента. Хотя область 3D-реконструкции претерпела значительные изменения, удаление фона для получения чистой модели объекта по-прежнему требует различных форм ручного труда, таких как разметка ограничивающих рамок, аннотирование масок и манипуляции с сетками. В данной статье мы предлагаем новую структуру под названием AutoRecon для автоматического обнаружения и реконструкции объекта из многовидовых изображений. Мы демонстрируем, что объекты переднего плана могут быть надежно локализованы и сегментированы из облаков точек SfM с использованием самоконтролируемых признаков 2D Vision Transformer. Затем мы реконструируем декомпозированные нейронные представления сцен с плотным контролем, обеспечиваемым декомпозированными облаками точек, что приводит к точной реконструкции и сегментации объекта. Эксперименты на наборах данных DTU, BlendedMVS и CO3D-V2 демонстрируют эффективность и надежность AutoRecon.
Получение интерпретируемых человеком объяснений работы крупных универсальных языковых моделей является важной задачей для обеспечения безопасности ИИ. Однако не менее важно, чтобы наши методы интерпретации точно отражали причинно-следственные динамики, лежащие в основе поведения моделей, и могли устойчиво обобщаться на новые входные данные. Метод распределенного поиска соответствий (Distributed Alignment Search, DAS) — это мощный метод градиентного спуска, основанный на теории причинной абстракции, который позволил выявить точные соответствия между интерпретируемыми символическими алгоритмами и небольшими моделями глубокого обучения, дообученными для конкретных задач. В данной статье мы значительно масштабируем DAS, заменяя оставшиеся шаги полного перебора на обучаемые параметры — подход, который мы называем DAS. Это позволяет нам эффективно искать интерпретируемую причинную структуру в крупных языковых моделях, когда они выполняют инструкции. Мы применяем DAS к модели Alpaca (7 млрд параметров), которая "из коробки" решает простую задачу численного рассуждения. С помощью DAS мы обнаруживаем, что Alpaca делает это, реализуя причинную модель с двумя интерпретируемыми булевыми переменными. Более того, мы выясняем, что соответствие нейронных представлений этим переменным устойчиво к изменениям входных данных и инструкций. Эти результаты представляют собой первый шаг к глубокому пониманию внутренней работы наших крупнейших и наиболее широко используемых языковых моделей.
Интерфейсы на естественном языке часто требуют размеченных данных для преобразования запросов пользователей в программы, запросы к базам данных или другие структурированные представления намерений. В процессе сбора данных бывает сложно предвидеть и формализовать весь спектр потребностей пользователей. Например, в системе, предназначенной для обработки простых запросов (например, "найди мои встречи на завтра" или "перенеси мою встречу с руководителем на полдень"), пользователи могут также выражать более сложные запросы (например, "поменяй местами все мои звонки в понедельник и вторник"). Мы представляем подход, позволяющий простой модели преобразования языка в код обрабатывать сложные высказывания с помощью иерархической декомпозиции естественного языка. Наш подход использует предобученную языковую модель для разложения сложного высказывания на последовательность более простых шагов на естественном языке, а затем интерпретирует каждый шаг с помощью модели преобразования языка в код. Для тестирования нашего подхода мы собираем и публикуем DeCU — новый бенчмарк для оценки декомпозиции сложных высказываний (NL-to-program). Эксперименты показывают, что предложенный подход позволяет интерпретировать сложные высказывания практически без сложных обучающих данных, превосходя стандартные подходы с использованием few-shot промптов.
Контрастное обучение стало эффективной основой для изучения мультимодальных представлений. CLIP, знаковая работа в этой области, достигла впечатляющих результатов, обучаясь на парных данных изображений и текстов с использованием контрастной функции потерь. Недавние исследования утверждают, что удалось улучшить CLIP за счет дополнительных неконтрастных функций потерь, вдохновленных методами самообучения. Однако иногда бывает сложно отделить вклад этих дополнительных функций потерь от других деталей реализации, таких как аугментация данных или методы регуляризации, используемые при обучении модели. Чтобы пролить свет на этот вопрос, в данной статье мы сначала предлагаем, реализуем и оцениваем несколько базовых моделей, полученных путем объединения контрастного обучения с последними достижениями в области самообучения. В частности, мы используем функции потерь, которые доказали свою эффективность в визуальном самообучении, для согласования изображений и текстов. Мы обнаруживаем, что эти базовые модели превосходят базовую реализацию CLIP. Однако при использовании более мощного подхода к обучению это преимущество исчезает. Действительно, мы выясняем, что простую базовую модель CLIP также можно значительно улучшить, вплоть до 25% относительного улучшения на задачах zero-shot, применяя известные методы обучения, популярные в других областях. Более того, мы обнаруживаем, что достаточно применить аугментацию изображений и текстов, чтобы достичь большей части улучшений, полученных в предыдущих работах. С нашим улучшенным подходом к обучению CLIP мы достигаем наилучших результатов на четырех стандартных наборах данных и стабильно превосходим предыдущие работы (до +4% на самом большом наборе данных), при этом оставаясь значительно более простыми.
Последние достижения в методах мультимодального предварительного обучения продемонстрировали многообещающую эффективность в обучении представлений 3D-данных за счет согласования признаков между 3D-модальностью, их 2D-аналогами и соответствующей языковой модальностью. Однако методы, используемые существующими мультимодальными фреймворками для сбора данных для 3D-приложений, недостаточно масштабируемы и всеобъемлющи, что может ограничивать полный потенциал мультимодального обучения. Основное узкое место заключается в масштабируемости и всеобъемлющем характере языковой модальности. Для решения этой проблемы мы представляем ULIP-2 — фреймворк мультимодального предварительного обучения, который использует современные мультимодальные большие языковые модели (LLM), предварительно обученные на обширных знаниях, для автоматической генерации целостных языковых описаний 3D-объектов. Мы проводим эксперименты на двух крупномасштабных наборах данных, Objaverse и ShapeNet55, и публикуем сгенерированные тройные наборы данных (3D Point Cloud — Изображение — Текст), названные "ULIP-Objaverse Triplets" и "ULIP-ShapeNet Triplets". ULIP-2 требует только самих 3D-данных и устраняет необходимость в ручной аннотации, демонстрируя свою масштабируемость; при этом ULIP-2 достигает значительных улучшений в задаче zero-shot классификации на ModelNet40 (74% точности Top1). Более того, ULIP-2 устанавливает новый рекорд на реальном бенчмарке ScanObjectNN (91,5% общей точности), используя всего 1,4 миллиона параметров (примерно в 10 раз меньше, чем текущие SOTA), что знаменует прорыв в масштабируемом мультимодальном обучении 3D-представлений без участия человека. Код и наборы данных доступны по адресу https://github.com/salesforce/ULIP.
Крупные языковые модели (LLM) достигли значительных успехов в обработке естественного языка, однако сталкиваются с проблемами, связанными с вычислительными затратами и неэффективностью по мере увеличения их размера, особенно в задачах, специфичных для определённых областей. С другой стороны, малые языковые модели (SLM) часто испытывают трудности в таких задачах из-за ограниченной ёмкости и объёма обучающих данных. В данной статье мы представляем метод Dr. LLaMA, направленный на улучшение SLM путём генеративного расширения данных с использованием LLM, с акцентом на задачи ответов на медицинские вопросы и набор данных PubMedQA. Наши результаты показывают, что LLM эффективно уточняют и разнообразят существующие пары вопросов и ответов, что приводит к улучшению производительности значительно меньшей модели на специализированных наборах данных после тонкой настройки. Это исследование подчеркивает сложности использования LLM для ответов на вопросы в узких областях и предлагает потенциальные направления исследований для преодоления этих ограничений, в конечном итоге стремясь к созданию более эффективных и мощных моделей для специализированных приложений. Мы также сделали наш код доступным для заинтересованных исследователей.
Маскированные языковые модели (MLM) доказали свою эффективность для повторного ранжирования (second-pass rescoring) в системах автоматического распознавания речи (ASR). В данной работе мы предлагаем Masked Audio Text Encoder (MATE) — многомодальную маскированную языковую модель для повторного ранжирования, которая интегрирует акустические представления во входное пространство MLM. Мы применяем контрастивное обучение для эффективного согласования модальностей путем изучения общих представлений. Мы показываем, что использование многомодальной модели для повторного ранжирования полезно для обобщения ASR-системы на новые домены, когда данные целевого домена недоступны. MATE снижает частоту ошибок по словам (WER) на 4%-16% на данных из того же домена и на 3%-7% на данных из других доменов по сравнению с текстовым базовым подходом. Кроме того, при очень ограниченном объеме обучающих данных (0,8 часа) MATE достигает снижения WER на 8%-23% по сравнению с базовым подходом первого прохода.
Недавние исследования показали, что модели с двойным кодировщиком, обученные на задаче ранжирования переводов на уровне предложений, являются эффективными методами для кросс-языкового векторного представления предложений. Однако наши исследования указывают на то, что выравнивание на уровне токенов также играет важную роль в многоязычных сценариях, что ранее не было полностью изучено. На основе наших выводов мы предлагаем фреймворк предварительного обучения с двойным выравниванием (DAP) для кросс-языкового векторного представления предложений, который включает как выравнивание на уровне предложений, так и на уровне токенов. Для достижения этого мы вводим новую задачу обучения переводу представлений (RTL), в которой модель учится использовать контекстуализированное представление токена с одной стороны для реконструкции его перевода на другой стороне. Эта задача реконструкции побуждает модель встраивать информацию о переводе в представление токена. По сравнению с другими методами выравнивания на уровне токенов, такими как моделирование перевода, RTL более подходит для архитектур с двойным кодировщиком и является вычислительно эффективным. Многочисленные эксперименты на трех кросс-языковых бенчмарках уровня предложений демонстрируют, что наш подход может значительно улучшить векторное представление предложений. Наш код доступен по адресу https://github.com/ChillingDream/DAP.
Несмотря на беспрецедентный успех, даже самые крупные языковые модели допускают ошибки. Подобно тому, как люди учатся и совершенствуются, получая обратную связь, в предыдущих работах предлагалось предоставлять языковым моделям обратную связь на естественном языке, чтобы направлять их в исправлении своих выводов. Поскольку получение критики от человека является дорогостоящим, исследователи разработали обученные генераторы критики в качестве замены человеческим критикам, предполагая, что можно обучить последующие модели использовать сгенерированную обратную связь. Однако этот подход неприменим к моделям с закрытым исходным кодом или ограниченным доступом, таким как ChatGPT, поскольку их нельзя дообучать. Более того, в эпоху крупных универсальных языковых агентов дообучение не является ни вычислительно, ни пространственно эффективным, так как приводит к созданию множества копий сети. В данной работе мы представляем RL4F (Reinforcement Learning for Feedback) — многозадачный коллаборативный фреймворк, в котором генератор критики обучается для максимизации производительности GPT-3 на конечной задаче, при этом GPT-3 является фиксированной моделью, более чем в 200 раз превышающей его размер. RL4F создает критику, которая помогает GPT-3 пересматривать свои выводы. Мы исследуем три набора данных для планирования действий, суммирования и алфавитизации и показываем улучшения (~5% в среднем) по нескольким метрикам текстового сходства по сравнению с сильными базовыми моделями во всех трех задачах.
В данной статье представлен новый подход для различения текстов, созданных ChatGPT, и текстов, написанных человеком, с использованием языковых моделей. Для этого мы сначала собрали и опубликовали предварительно обработанный набор данных под названием OpenGPTText, состоящий из перефразированного контента, сгенерированного с помощью ChatGPT. Затем мы разработали, реализовали и обучили две различные модели для классификации текста, используя Robustly Optimized BERT Pretraining Approach (RoBERTa) и Text-to-Text Transfer Transformer (T5) соответственно. Наши модели продемонстрировали выдающиеся результаты, достигнув точности более 97% на тестовом наборе данных, что было подтверждено с помощью различных метрик. Кроме того, мы провели исследование интерпретируемости, чтобы продемонстрировать способность нашей модели извлекать и различать ключевые особенности между текстами, написанными человеком, и текстами, сгенерированными ChatGPT. Наши результаты предоставляют важные инсайты для эффективного использования языковых моделей в обнаружении сгенерированных текстов.