Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

TinyStories: Насколько маленькими могут быть языковые модели и при этом сохранять способность к связной речи на английском языке?
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

May 12, 2023

Ronen Eldan, Yuanzhi Li

3610

Языковые модели (ЯМ) являются мощными инструментами для обработки естественного языка, однако они часто испытывают трудности с генерацией связного и беглого текста, когда их размеры невелики. Модели с примерно 125 миллионами параметров, такие как GPT-Neo (малая) или GPT-2 (малая), редко способны генерировать связный и последовательный текст на английском языке, выходящий за пределы нескольких слов, даже после длительного обучения. Это поднимает вопрос о том, возникает ли способность к созданию связного текста на английском языке только на более крупных масштабах (с сотнями миллионов параметров или более) и в сложных архитектурах (с множеством слоев глобального внимания). В данной работе мы представляем TinyStories — синтетический набор данных, состоящий из коротких рассказов, которые содержат только слова, обычно понятные детям в возрасте от 3 до 4 лет, сгенерированные моделями GPT-3.5 и GPT-4. Мы показываем, что TinyStories может быть использован для обучения и оценки языковых моделей, которые значительно меньше современных моделей (менее 10 миллионов параметров) или имеют гораздо более простую архитектуру (с одним трансформерным блоком), но при этом способны генерировать беглые и последовательные рассказы, состоящие из нескольких абзацев, которые отличаются разнообразием и почти идеальной грамматикой, а также демонстрируют способности к логическому рассуждению. Мы также представляем новую парадигму для оценки языковых моделей: предлагаем подход, в котором GPT-4 оценивает контент, сгенерированный этими моделями, как если бы это были рассказы, написанные учениками и оцененные (человеческим) учителем. Эта новая парадигма преодолевает недостатки стандартных тестов, которые часто требуют, чтобы вывод модели был строго структурирован, и, более того, предоставляет многомерную оценку модели, учитывая такие аспекты, как грамматика, креативность и последовательность. Мы надеемся, что TinyStories сможет способствовать разработке, анализу и исследованиям языковых моделей, особенно в условиях ограниченных ресурсов или специализированных областей, а также прольет свет на возникновение языковых способностей в ЯМ.

SoundStorm: Эффективное параллельное генерация аудио
SoundStorm: Efficient Parallel Audio Generation

May 16, 2023

Zalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi

138

Мы представляем SoundStorm — модель для эффективной неавторегрессивной генерации аудио. SoundStorm принимает на вход семантические токены AudioLM и использует двунаправленное внимание и параллельное декодирование на основе уверенности для генерации токенов нейронного аудиокодека. По сравнению с авторегрессивным подходом генерации AudioLM, наша модель создает аудио того же качества, но с большей согласованностью голоса и акустических условий, при этом работая на два порядка быстрее. SoundStorm генерирует 30 секунд аудио за 0,5 секунды на TPU-v4. Мы демонстрируем способность нашей модели масштабировать генерацию аудио на более длинные последовательности, синтезируя высококачественные, естественные диалоговые сегменты на основе транскрипта с аннотацией смены говорящих и короткого промпта с голосами участников.

DarkBERT: Языковая модель для теневой стороны интернета
DarkBERT: A Language Model for the Dark Side of the Internet

May 15, 2023

Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin

916

Недавние исследования показали, что существуют явные различия в языке, используемом в Dark Web, по сравнению с Surface Web. Поскольку исследования Dark Web обычно требуют текстового анализа этой области, языковые модели, специфичные для Dark Web, могут предоставить ценные данные для исследователей. В данной работе мы представляем DarkBERT — языковую модель, предварительно обученную на данных Dark Web. Мы описываем шаги, предпринятые для фильтрации и компиляции текстовых данных, используемых для обучения DarkBERT, чтобы справиться с крайним лексическим и структурным разнообразием Dark Web, которое может препятствовать построению адекватного представления этой области. Мы оцениваем DarkBERT и его базовую версию, а также другие широко используемые языковые модели, чтобы подтвердить преимущества, которые предлагает модель, специфичная для Dark Web, в различных сценариях использования. Наши оценки показывают, что DarkBERT превосходит текущие языковые модели и может стать ценным ресурсом для будущих исследований Dark Web.

К экспертному уровню ответов на медицинские вопросы с использованием крупных языковых моделей
Towards Expert-Level Medical Question Answering with Large Language Models

May 16, 2023

Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan

Последние достижения в области искусственного интеллекта (ИИ) позволили преодолеть ключевые рубежи в решении "грандиозных задач", начиная от игры в го и заканчивая предсказанием структуры белков. Способность извлекать медицинские знания, анализировать их и отвечать на медицинские вопросы на уровне врачей долгое время считалась одной из таких задач. Крупные языковые модели (LLM) значительно продвинули решение медицинских вопросов; модель Med-PaLM стала первой, преодолевшей "проходной" балл в вопросах, аналогичных экзамену на медицинскую лицензию в США (USMLE), с результатом 67,2% на наборе данных MedQA. Однако это и другие предыдущие исследования показали значительный потенциал для улучшения, особенно при сравнении ответов моделей с ответами врачей. В данной работе мы представляем Med-PaLM 2, которая устраняет эти пробелы за счет улучшений базовой LLM (PaLM 2), тонкой настройки в медицинской области и стратегий промптинга, включая новый подход к ансамблю и уточнению. Med-PaLM 2 достигла результата до 86,5% на наборе данных MedQA, улучшив показатель Med-PaLM более чем на 19% и установив новый рекорд. Мы также наблюдали результаты, приближающиеся или превосходящие современные стандарты на наборах данных MedMCQA, PubMedQA и MMLU по клиническим темам. Мы провели детальную оценку ответов на длинные вопросы по нескольким критериям, важным для клинического применения. В парном сравнительном ранжировании 1066 медицинских вопросов от потребителей врачи предпочли ответы Med-PaLM 2 ответам, составленным врачами, по восьми из девяти критериев, связанных с клинической полезностью (p < 0,001). Мы также отметили значительные улучшения по сравнению с Med-PaLM по всем оценочным критериям (p < 0,001) на новых наборах данных из 240 длинных "адверсариальных" вопросов, направленных на выявление ограничений LLM. Хотя необходимы дальнейшие исследования для подтверждения эффективности этих моделей в реальных условиях, полученные результаты демонстрируют быстрый прогресс в достижении уровня врачей в ответах на медицинские вопросы.

CodeT5+: Открытые крупные языковые модели для анализа и генерации кода
CodeT5+: Open Code Large Language Models for Code Understanding and Generation

May 13, 2023

Yue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D. Q. Bui, Junnan Li, Steven C. H. Hoi

Крупные языковые модели (LLM), предварительно обученные на обширных исходных кодах, достигли значительного прогресса в области интеллектуальной обработки кода. Однако существующие кодоориентированные LLM имеют два основных ограничения, связанных с архитектурой и задачами предварительного обучения. Во-первых, они часто используют специфическую архитектуру (только кодировщик или только декодировщик) или полагаются на унифицированную сеть кодировщик-декодировщик для различных задач. Первый подход ограничен недостаточной гибкостью в применении, тогда как во втором модель рассматривается как единая система для всех задач, что приводит к неоптимальной производительности на некоторых из них. Во-вторых, они часто применяют ограниченный набор задач предварительного обучения, которые могут быть нерелевантными для некоторых задач, что приводит к значительному снижению производительности. Для устранения этих ограничений мы предлагаем «CodeT5+» — семейство кодоориентированных LLM с архитектурой кодировщик-декодировщик, в котором компоненты могут гибко комбинироваться для решения широкого спектра задач. Такая гибкость обеспечивается за счет предложенной нами смеси задач предварительного обучения, направленной на минимизацию расхождений между предварительным обучением и тонкой настройкой. Эти задачи включают восстановление зашумленных фрагментов, контрастивное обучение, сопоставление текста и кода, а также задачи предварительного обучения с использованием причинных языковых моделей, применяемые как на унимодальных, так и на бимодальных многоязычных корпусах кода. Кроме того, мы предлагаем инициализировать CodeT5+ с использованием замороженных готовых LLM без обучения с нуля для эффективного масштабирования моделей, а также исследуем настройку на инструкции для согласования с естественными языковыми указаниями. Мы проводим всестороннюю оценку CodeT5+ на более чем 20 кодоориентированных бенчмарках в различных режимах, включая zero-shot, тонкую настройку и настройку на инструкции. Мы наблюдаем достижение моделями наилучших результатов (state-of-the-art, SoTA) на различных задачах, связанных с кодом, таких как генерация и завершение кода, математическое программирование и задачи поиска кода по тексту. В частности, наша модель CodeT5+ 16B, настроенная на инструкции, устанавливает новые рекорды SoTA на задаче генерации кода HumanEval среди других открытых кодоориентированных LLM.

Небольшие модели являются ценными дополнениями для крупных языковых моделей.
Small Models are Valuable Plug-ins for Large Language Models

May 15, 2023

Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, Julian McAuley

Крупные языковые модели (LLM), такие как GPT-3 и GPT-4, обладают высокой мощностью, однако их веса часто недоступны публично, а огромные размеры моделей делают их настройку на стандартном оборудовании затруднительной. В результате эффективная настройка этих моделей с использованием крупномасштабных размеченных данных может быть сложной задачей. В качестве альтернативы, обучение в контексте (In-Context Learning, ICL) позволяет использовать лишь небольшое количество размеченных примеров из-за ограничений на длину контекста. В данной работе мы предлагаем метод Super In-Context Learning (SuperICL), который позволяет чернобоксным LLM взаимодействовать с локально настроенными меньшими моделями, что приводит к превосходной производительности на задачах с размеченными данными. Наши эксперименты показывают, что SuperICL может улучшить производительность по сравнению с современными настроенными моделями, одновременно решая проблему нестабильности обучения в контексте. Кроме того, SuperICL способен расширять возможности меньших моделей, такие как многоязычность и интерпретируемость.

Make-An-Animation: Масштабируемая генерация 3D-движений человека на основе текстовых условий
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

May 16, 2023

Samaneh Azadi, Akbar Shah, Thomas Hayes, Devi Parikh, Sonal Gupta

Генерация движений человека на основе текстовых описаний вызывает значительный интерес благодаря своим перспективным применениям в анимации и робототехнике. В последнее время использование диффузионных моделей для генерации движений позволило улучшить качество создаваемых анимаций. Однако существующие подходы ограничены зависимостью от относительно небольших наборов данных motion capture, что приводит к низкой производительности на более разнообразных и сложных запросах. В данной статье мы представляем Make-An-Animation — модель генерации движений человека, обусловленную текстом, которая обучается на более разнообразных позах и запросах из крупномасштабных наборов данных изображений и текстов, что позволяет значительно улучшить производительность по сравнению с предыдущими работами. Make-An-Animation обучается в два этапа. Сначала модель обучается на тщательно отобранном крупномасштабном наборе данных пар (текст, статическая псевдопоза), извлеченных из наборов данных изображений и текстов. Затем модель дообучается на данных motion capture, добавляя дополнительные слои для моделирования временного измерения. В отличие от предыдущих диффузионных моделей для генерации движений, Make-An-Animation использует архитектуру U-Net, схожую с недавними моделями генерации видео на основе текста. Оценка реалистичности движений и их соответствия входному тексту показывает, что наша модель достигает наилучших результатов в задаче генерации движений на основе текста.

AR-Diffusion: Авторегрессионная диффузионная модель для генерации текста
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

May 16, 2023

Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen

Диффузионные модели привлекли значительное внимание в области генерации изображений благодаря своей исключительной производительности. Их успех недавно был распространен на генерацию текста посредством одновременного создания всех токенов в последовательности. Однако естественный язык демонстрирует гораздо более выраженную последовательную зависимость по сравнению с изображениями, и большинство существующих языковых моделей обучаются с использованием авторегрессивного подхода слева направо. Чтобы учесть присущую естественному языку последовательную характеристику, мы представляем Авторегрессивную Диффузию (AR-Diffusion). AR-Diffusion обеспечивает, что генерация токенов справа зависит от уже сгенерированных токенов слева, что достигается за счет использования динамического числа шагов удаления шума, которые варьируются в зависимости от позиции токена. В результате токены слева проходят меньше шагов удаления шума, чем токены справа, что позволяет им генерироваться раньше и впоследствии влиять на генерацию токенов справа. В серии экспериментов на различных задачах генерации текста, включая суммаризацию текста, машинный перевод и генерацию здравого смысла, AR-Diffusion явно продемонстрировала превосходство над существующими диффузионными языковыми моделями, а также то, что она может быть в 100–600 раз быстрее при достижении сопоставимых результатов. Наш код будет опубликован в открытом доступе.

Символьная настройка улучшает обучение в контексте языковых моделей.
Symbol tuning improves in-context learning in language models

May 15, 2023

Jerry Wei, Le Hou, Andrew Lampinen, Xiangning Chen, Da Huang, Yi Tay, Xinyun Chen, Yifeng Lu, Denny Zhou, Tengyu Ma, Quoc V. Le

Мы представляем метод символической тонкой настройки (symbol tuning) — дообучение языковых моделей на парах "вход-метка" в контексте, где естественно-языковые метки (например, "положительный/отрицательный отзыв") заменяются произвольными символами (например, "foo/bar"). Символическая тонкая настройка основывается на интуиции, что если модель не может использовать инструкции или естественно-языковые метки для понимания задачи, она должна научиться этому через изучение соответствий между входными данными и метками. Мы экспериментируем с символической тонкой настройкой на моделях Flan-PaLM с числом параметров до 540 миллиардов и наблюдаем преимущества в различных сценариях. Во-первых, символическая тонкая настройка повышает производительность на задачах обучения в контексте, которые модель ранее не видела, и делает модель значительно более устойчивой к недостаточно специфицированным запросам, таким как те, в которых отсутствуют инструкции или естественно-языковые метки. Во-вторых, модели, прошедшие символическую тонкую настройку, демонстрируют значительно лучшие результаты в задачах алгоритмического мышления, с улучшением до 18,2% на бенчмарке List Functions и до 15,3% на бенчмарке Simple Turing Concepts. Наконец, такие модели показывают значительные улучшения в следовании перевернутым меткам, представленным в контексте, что означает их повышенную способность использовать контекстную информацию для переопределения ранее усвоенных семантических знаний.

Использование больших языковых моделей в диалоговых рекомендательных системах
Leveraging Large Language Models in Conversational Recommender Systems

May 13, 2023

Luke Friedman, Sameer Ahuja, David Allen, Terry Tan, Hakim Sidahmed, Changbo Long, Jun Xie, Gabriel Schubiner, Ajay Patel, Harsh Lara, Brian Chu, Zexi Chen, Manoj Tiwari

Система рекомендаций с поддержкой диалога (Conversational Recommender System, CRS) предоставляет пользователям повышенную прозрачность и контроль, позволяя взаимодействовать с системой через многоходовый диалог в реальном времени. В последнее время крупные языковые модели (Large Language Models, LLMs) продемонстрировали беспрецедентную способность вести естественные беседы, включая знания о мире и здравый смысл в понимание языка, что открывает новые возможности для этой парадигмы. Однако эффективное использование LLMs в CRS ставит новые технические задачи, включая правильное понимание и управление сложным диалогом, а также извлечение информации из внешних источников. Эти проблемы усугубляются большим и постоянно меняющимся набором элементов, а также отсутствием данных для обучения на основе диалогов. В данной статье мы предлагаем дорожную карту для создания масштабируемой CRS с использованием LLMs. В частности, мы предлагаем новые реализации для понимания предпочтений пользователей, гибкого управления диалогом и объяснимых рекомендаций в рамках интегрированной архитектуры, основанной на LLMs. Для улучшения персонализации мы описываем, как LLM может использовать интерпретируемые профили пользователей на естественном языке и применять их для модуляции контекста на уровне сессии. Чтобы преодолеть ограничения данных для диалогов в отсутствие существующей производственной CRS, мы предлагаем методы создания управляемого симулятора пользователя на основе LLM для генерации синтетических диалогов. В качестве доказательства концепции мы представляем RecLLM — масштабируемую CRS для рекомендаций видео на YouTube, построенную на основе LaMDA, и демонстрируем её беглость и разнообразные функциональные возможности на примере нескольких иллюстративных диалогов.

Предварительное обучение для освоения контекстного понимания
Pre-Training to Learn in Context

May 16, 2023

Yuxian Gu, Li Dong, Furu Wei, Minlie Huang

Обучение в контексте, при котором предварительно обученные языковые модели учатся выполнять задачи на основе примеров и инструкций, представленных в их контексте, привлекло значительное внимание в сообществе NLP. Однако потенциал обучения в контексте не полностью раскрыт, поскольку языковые модели не обучаются явным образом для такого типа обучения. С этой целью мы предлагаем PICL (Pre-training for In-Context Learning) — фреймворк для улучшения способности языковых моделей к обучению в контексте путем предварительного обучения модели на большом наборе "внутренних задач" в общем корпусе текстов с использованием простой задачи языкового моделирования. PICL побуждает модель выводить и выполнять задачи, основываясь на контексте, сохраняя при этом обобщающую способность предварительно обученных моделей. Мы оцениваем производительность модели, обученной с помощью PICL, на семи широко используемых наборах данных для классификации текстов и на бенчмарке Super-NaturalInstructions, который содержит более 100 задач NLP, сформулированных как задачи генерации текста. Наши эксперименты показывают, что PICL более эффективен и лучше обобщает задачи по сравнению с рядом базовых моделей, превосходя более крупные языковые модели с почти в 4 раза большим количеством параметров. Код доступен по адресу https://github.com/thu-coai/PICL.

AutoRecon: Автоматизированное обнаружение и реконструкция 3D-объектов
AutoRecon: Automated 3D Object Discovery and Reconstruction

May 15, 2023

Yuang Wang, Xingyi He, Sida Peng, Haotong Lin, Hujun Bao, Xiaowei Zhou

Полностью автоматизированный конвейер реконструкции объектов имеет ключевое значение для создания цифрового контента. Хотя область 3D-реконструкции претерпела значительные изменения, удаление фона для получения чистой модели объекта по-прежнему требует различных форм ручного труда, таких как разметка ограничивающих рамок, аннотирование масок и манипуляции с сетками. В данной статье мы предлагаем новую структуру под названием AutoRecon для автоматического обнаружения и реконструкции объекта из многовидовых изображений. Мы демонстрируем, что объекты переднего плана могут быть надежно локализованы и сегментированы из облаков точек SfM с использованием самоконтролируемых признаков 2D Vision Transformer. Затем мы реконструируем декомпозированные нейронные представления сцен с плотным контролем, обеспечиваемым декомпозированными облаками точек, что приводит к точной реконструкции и сегментации объекта. Эксперименты на наборах данных DTU, BlendedMVS и CO3D-V2 демонстрируют эффективность и надежность AutoRecon.

Интерпретируемость в масштабе: выявление причинно-следственных механизмов в модели Alpaca
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca

May 15, 2023

Zhengxuan Wu, Atticus Geiger, Christopher Potts, Noah D. Goodman

Получение интерпретируемых человеком объяснений работы крупных универсальных языковых моделей является важной задачей для обеспечения безопасности ИИ. Однако не менее важно, чтобы наши методы интерпретации точно отражали причинно-следственные динамики, лежащие в основе поведения моделей, и могли устойчиво обобщаться на новые входные данные. Метод распределенного поиска соответствий (Distributed Alignment Search, DAS) — это мощный метод градиентного спуска, основанный на теории причинной абстракции, который позволил выявить точные соответствия между интерпретируемыми символическими алгоритмами и небольшими моделями глубокого обучения, дообученными для конкретных задач. В данной статье мы значительно масштабируем DAS, заменяя оставшиеся шаги полного перебора на обучаемые параметры — подход, который мы называем DAS. Это позволяет нам эффективно искать интерпретируемую причинную структуру в крупных языковых моделях, когда они выполняют инструкции. Мы применяем DAS к модели Alpaca (7 млрд параметров), которая "из коробки" решает простую задачу численного рассуждения. С помощью DAS мы обнаруживаем, что Alpaca делает это, реализуя причинную модель с двумя интерпретируемыми булевыми переменными. Более того, мы выясняем, что соответствие нейронных представлений этим переменным устойчиво к изменениям входных данных и инструкций. Эти результаты представляют собой первый шаг к глубокому пониманию внутренней работы наших крупнейших и наиболее широко используемых языковых моделей.

Декомпозиция и интерпретация сложных высказываний на естественном языке
Natural Language Decomposition and Interpretation of Complex Utterances

May 15, 2023

Harsh Jhamtani, Hao Fang, Patrick Xia, Eran Levy, Jacob Andreas, Ben Van Durme

Интерфейсы на естественном языке часто требуют размеченных данных для преобразования запросов пользователей в программы, запросы к базам данных или другие структурированные представления намерений. В процессе сбора данных бывает сложно предвидеть и формализовать весь спектр потребностей пользователей. Например, в системе, предназначенной для обработки простых запросов (например, "найди мои встречи на завтра" или "перенеси мою встречу с руководителем на полдень"), пользователи могут также выражать более сложные запросы (например, "поменяй местами все мои звонки в понедельник и вторник"). Мы представляем подход, позволяющий простой модели преобразования языка в код обрабатывать сложные высказывания с помощью иерархической декомпозиции естественного языка. Наш подход использует предобученную языковую модель для разложения сложного высказывания на последовательность более простых шагов на естественном языке, а затем интерпретирует каждый шаг с помощью модели преобразования языка в код. Для тестирования нашего подхода мы собираем и публикуем DeCU — новый бенчмарк для оценки декомпозиции сложных высказываний (NL-to-program). Эксперименты показывают, что предложенный подход позволяет интерпретировать сложные высказывания практически без сложных обучающих данных, превосходя стандартные подходы с использованием few-shot промптов.

Улучшенные базовые модели для предварительного обучения в области зрения и языка
Improved baselines for vision-language pre-training

May 15, 2023

Enrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal

Контрастное обучение стало эффективной основой для изучения мультимодальных представлений. CLIP, знаковая работа в этой области, достигла впечатляющих результатов, обучаясь на парных данных изображений и текстов с использованием контрастной функции потерь. Недавние исследования утверждают, что удалось улучшить CLIP за счет дополнительных неконтрастных функций потерь, вдохновленных методами самообучения. Однако иногда бывает сложно отделить вклад этих дополнительных функций потерь от других деталей реализации, таких как аугментация данных или методы регуляризации, используемые при обучении модели. Чтобы пролить свет на этот вопрос, в данной статье мы сначала предлагаем, реализуем и оцениваем несколько базовых моделей, полученных путем объединения контрастного обучения с последними достижениями в области самообучения. В частности, мы используем функции потерь, которые доказали свою эффективность в визуальном самообучении, для согласования изображений и текстов. Мы обнаруживаем, что эти базовые модели превосходят базовую реализацию CLIP. Однако при использовании более мощного подхода к обучению это преимущество исчезает. Действительно, мы выясняем, что простую базовую модель CLIP также можно значительно улучшить, вплоть до 25% относительного улучшения на задачах zero-shot, применяя известные методы обучения, популярные в других областях. Более того, мы обнаруживаем, что достаточно применить аугментацию изображений и текстов, чтобы достичь большей части улучшений, полученных в предыдущих работах. С нашим улучшенным подходом к обучению CLIP мы достигаем наилучших результатов на четырех стандартных наборах данных и стабильно превосходим предыдущие работы (до +4% на самом большом наборе данных), при этом оставаясь значительно более простыми.

ULIP-2: На пути к масштабируемой мультимодальной предварительной подготовке для понимания 3D
ULIP-2: Towards Scalable Multimodal Pre-training For 3D Understanding

May 14, 2023

Le Xue, Ning Yu, Shu Zhang, Junnan Li, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese

Последние достижения в методах мультимодального предварительного обучения продемонстрировали многообещающую эффективность в обучении представлений 3D-данных за счет согласования признаков между 3D-модальностью, их 2D-аналогами и соответствующей языковой модальностью. Однако методы, используемые существующими мультимодальными фреймворками для сбора данных для 3D-приложений, недостаточно масштабируемы и всеобъемлющи, что может ограничивать полный потенциал мультимодального обучения. Основное узкое место заключается в масштабируемости и всеобъемлющем характере языковой модальности. Для решения этой проблемы мы представляем ULIP-2 — фреймворк мультимодального предварительного обучения, который использует современные мультимодальные большие языковые модели (LLM), предварительно обученные на обширных знаниях, для автоматической генерации целостных языковых описаний 3D-объектов. Мы проводим эксперименты на двух крупномасштабных наборах данных, Objaverse и ShapeNet55, и публикуем сгенерированные тройные наборы данных (3D Point Cloud — Изображение — Текст), названные "ULIP-Objaverse Triplets" и "ULIP-ShapeNet Triplets". ULIP-2 требует только самих 3D-данных и устраняет необходимость в ручной аннотации, демонстрируя свою масштабируемость; при этом ULIP-2 достигает значительных улучшений в задаче zero-shot классификации на ModelNet40 (74% точности Top1). Более того, ULIP-2 устанавливает новый рекорд на реальном бенчмарке ScanObjectNN (91,5% общей точности), используя всего 1,4 миллиона параметров (примерно в 10 раз меньше, чем текущие SOTA), что знаменует прорыв в масштабируемом мультимодальном обучении 3D-представлений без участия человека. Код и наборы данных доступны по адресу https://github.com/salesforce/ULIP.

Dr. LLaMA: Улучшение небольших языковых моделей для предметно-ориентированных вопросно-ответных систем с помощью генеративного расширения данных
Dr. LLaMA: Improving Small Language Models in Domain-Specific QA via Generative Data Augmentation

May 12, 2023

Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu

Крупные языковые модели (LLM) достигли значительных успехов в обработке естественного языка, однако сталкиваются с проблемами, связанными с вычислительными затратами и неэффективностью по мере увеличения их размера, особенно в задачах, специфичных для определённых областей. С другой стороны, малые языковые модели (SLM) часто испытывают трудности в таких задачах из-за ограниченной ёмкости и объёма обучающих данных. В данной статье мы представляем метод Dr. LLaMA, направленный на улучшение SLM путём генеративного расширения данных с использованием LLM, с акцентом на задачи ответов на медицинские вопросы и набор данных PubMedQA. Наши результаты показывают, что LLM эффективно уточняют и разнообразят существующие пары вопросов и ответов, что приводит к улучшению производительности значительно меньшей модели на специализированных наборах данных после тонкой настройки. Это исследование подчеркивает сложности использования LLM для ответов на вопросы в узких областях и предлагает потенциальные направления исследований для преодоления этих ограничений, в конечном итоге стремясь к созданию более эффективных и мощных моделей для специализированных приложений. Мы также сделали наш код доступным для заинтересованных исследователей.

Маскированные аудиотекстовые энкодеры являются эффективными многомодальными рескорирующими моделями.
Masked Audio Text Encoders are Effective Multi-Modal Rescorers

May 11, 2023

Jinglun Cai, Monica Sunkara, Xilai Li, Anshu Bhatia, Xiao Pan, Sravan Bodapati

Маскированные языковые модели (MLM) доказали свою эффективность для повторного ранжирования (second-pass rescoring) в системах автоматического распознавания речи (ASR). В данной работе мы предлагаем Masked Audio Text Encoder (MATE) — многомодальную маскированную языковую модель для повторного ранжирования, которая интегрирует акустические представления во входное пространство MLM. Мы применяем контрастивное обучение для эффективного согласования модальностей путем изучения общих представлений. Мы показываем, что использование многомодальной модели для повторного ранжирования полезно для обобщения ASR-системы на новые домены, когда данные целевого домена недоступны. MATE снижает частоту ошибок по словам (WER) на 4%-16% на данных из того же домена и на 3%-7% на данных из других доменов по сравнению с текстовым базовым подходом. Кроме того, при очень ограниченном объеме обучающих данных (0,8 часа) MATE достигает снижения WER на 8%-23% по сравнению с базовым подходом первого прохода.

Двойственное выравнивание предварительного обучения для кросс-языкового векторного представления предложений
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding

May 16, 2023

Ziheng Li, Shaohan Huang, Zihan Zhang, Zhi-Hong Deng, Qiang Lou, Haizhen Huang, Jian Jiao, Furu Wei, Weiwei Deng, Qi Zhang

Недавние исследования показали, что модели с двойным кодировщиком, обученные на задаче ранжирования переводов на уровне предложений, являются эффективными методами для кросс-языкового векторного представления предложений. Однако наши исследования указывают на то, что выравнивание на уровне токенов также играет важную роль в многоязычных сценариях, что ранее не было полностью изучено. На основе наших выводов мы предлагаем фреймворк предварительного обучения с двойным выравниванием (DAP) для кросс-языкового векторного представления предложений, который включает как выравнивание на уровне предложений, так и на уровне токенов. Для достижения этого мы вводим новую задачу обучения переводу представлений (RTL), в которой модель учится использовать контекстуализированное представление токена с одной стороны для реконструкции его перевода на другой стороне. Эта задача реконструкции побуждает модель встраивать информацию о переводе в представление токена. По сравнению с другими методами выравнивания на уровне токенов, такими как моделирование перевода, RTL более подходит для архитектур с двойным кодировщиком и является вычислительно эффективным. Многочисленные эксперименты на трех кросс-языковых бенчмарках уровня предложений демонстрируют, что наш подход может значительно улучшить векторное представление предложений. Наш код доступен по адресу https://github.com/ChillingDream/DAP.

RL4F: Генерация естественно-языковой обратной связи с использованием обучения с подкреплением для исправления выходных данных модели
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs

May 15, 2023

Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon

Несмотря на беспрецедентный успех, даже самые крупные языковые модели допускают ошибки. Подобно тому, как люди учатся и совершенствуются, получая обратную связь, в предыдущих работах предлагалось предоставлять языковым моделям обратную связь на естественном языке, чтобы направлять их в исправлении своих выводов. Поскольку получение критики от человека является дорогостоящим, исследователи разработали обученные генераторы критики в качестве замены человеческим критикам, предполагая, что можно обучить последующие модели использовать сгенерированную обратную связь. Однако этот подход неприменим к моделям с закрытым исходным кодом или ограниченным доступом, таким как ChatGPT, поскольку их нельзя дообучать. Более того, в эпоху крупных универсальных языковых агентов дообучение не является ни вычислительно, ни пространственно эффективным, так как приводит к созданию множества копий сети. В данной работе мы представляем RL4F (Reinforcement Learning for Feedback) — многозадачный коллаборативный фреймворк, в котором генератор критики обучается для максимизации производительности GPT-3 на конечной задаче, при этом GPT-3 является фиксированной моделью, более чем в 200 раз превышающей его размер. RL4F создает критику, которая помогает GPT-3 пересматривать свои выводы. Мы исследуем три набора данных для планирования действий, суммирования и алфавитизации и показываем улучшения (~5% в среднем) по нескольким метрикам текстового сходства по сравнению с сильными базовыми моделями во всех трех задачах.

GPT-Sentinel: Различение контента, созданного человеком и ChatGPT
GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content

May 13, 2023

Yutian Chen, Hao Kang, Vivian Zhai, Liangze Li, Rita Singh, Bhiksha Ramakrishnan

В данной статье представлен новый подход для различения текстов, созданных ChatGPT, и текстов, написанных человеком, с использованием языковых моделей. Для этого мы сначала собрали и опубликовали предварительно обработанный набор данных под названием OpenGPTText, состоящий из перефразированного контента, сгенерированного с помощью ChatGPT. Затем мы разработали, реализовали и обучили две различные модели для классификации текста, используя Robustly Optimized BERT Pretraining Approach (RoBERTa) и Text-to-Text Transfer Transformer (T5) соответственно. Наши модели продемонстрировали выдающиеся результаты, достигнув точности более 97% на тестовом наборе данных, что было подтверждено с помощью различных метрик. Кроме того, мы провели исследование интерпретируемости, чтобы продемонстрировать способность нашей модели извлекать и различать ключевые особенности между текстами, написанными человеком, и текстами, сгенерированными ChatGPT. Наши результаты предоставляют важные инсайты для эффективного использования языковых моделей в обнаружении сгенерированных текстов.

Ежедневные статьи

SoundStorm: Эффективное параллельное генерация аудио
SoundStorm: Efficient Parallel Audio Generation

DarkBERT: Языковая модель для теневой стороны интернета
DarkBERT: A Language Model for the Dark Side of the Internet

К экспертному уровню ответов на медицинские вопросы с использованием крупных языковых моделей
Towards Expert-Level Medical Question Answering with Large Language Models

CodeT5+: Открытые крупные языковые модели для анализа и генерации кода
CodeT5+: Open Code Large Language Models for Code Understanding and Generation

Небольшие модели являются ценными дополнениями для крупных языковых моделей.
Small Models are Valuable Plug-ins for Large Language Models

Make-An-Animation: Масштабируемая генерация 3D-движений человека на основе текстовых условий
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

AR-Diffusion: Авторегрессионная диффузионная модель для генерации текста
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

Символьная настройка улучшает обучение в контексте языковых моделей.
Symbol tuning improves in-context learning in language models

Использование больших языковых моделей в диалоговых рекомендательных системах
Leveraging Large Language Models in Conversational Recommender Systems

Предварительное обучение для освоения контекстного понимания
Pre-Training to Learn in Context

AutoRecon: Автоматизированное обнаружение и реконструкция 3D-объектов
AutoRecon: Automated 3D Object Discovery and Reconstruction

Интерпретируемость в масштабе: выявление причинно-следственных механизмов в модели Alpaca
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca

Декомпозиция и интерпретация сложных высказываний на естественном языке
Natural Language Decomposition and Interpretation of Complex Utterances

Улучшенные базовые модели для предварительного обучения в области зрения и языка
Improved baselines for vision-language pre-training

ULIP-2: На пути к масштабируемой мультимодальной предварительной подготовке для понимания 3D
ULIP-2: Towards Scalable Multimodal Pre-training For 3D Understanding

Маскированные аудиотекстовые энкодеры являются эффективными многомодальными рескорирующими моделями.
Masked Audio Text Encoders are Effective Multi-Modal Rescorers

Двойственное выравнивание предварительного обучения для кросс-языкового векторного представления предложений
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding

GPT-Sentinel: Различение контента, созданного человеком и ChatGPT
GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content

Support

Support

Ежедневные статьи

SoundStorm: Эффективное параллельное генерация аудио
SoundStorm: Efficient Parallel Audio Generation

DarkBERT: Языковая модель для теневой стороны интернета
DarkBERT: A Language Model for the Dark Side of the Internet

К экспертному уровню ответов на медицинские вопросы с использованием крупных языковых моделей
Towards Expert-Level Medical Question Answering with Large Language Models

CodeT5+: Открытые крупные языковые модели для анализа и генерации кода
CodeT5+: Open Code Large Language Models for Code Understanding and Generation

Небольшие модели являются ценными дополнениями для крупных языковых моделей.
Small Models are Valuable Plug-ins for Large Language Models

Make-An-Animation: Масштабируемая генерация 3D-движений человека на основе текстовых условий
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

AR-Diffusion: Авторегрессионная диффузионная модель для генерации текста
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation

Символьная настройка улучшает обучение в контексте языковых моделей.
Symbol tuning improves in-context learning in language models

Использование больших языковых моделей в диалоговых рекомендательных системах
Leveraging Large Language Models in Conversational Recommender Systems

Предварительное обучение для освоения контекстного понимания
Pre-Training to Learn in Context

AutoRecon: Автоматизированное обнаружение и реконструкция 3D-объектов
AutoRecon: Automated 3D Object Discovery and Reconstruction

Интерпретируемость в масштабе: выявление причинно-следственных механизмов в модели Alpaca
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca

Декомпозиция и интерпретация сложных высказываний на естественном языке
Natural Language Decomposition and Interpretation of Complex Utterances

Улучшенные базовые модели для предварительного обучения в области зрения и языка
Improved baselines for vision-language pre-training

ULIP-2: На пути к масштабируемой мультимодальной предварительной подготовке для понимания 3D
ULIP-2: Towards Scalable Multimodal Pre-training For 3D Understanding

Маскированные аудиотекстовые энкодеры являются эффективными многомодальными рескорирующими моделями.
Masked Audio Text Encoders are Effective Multi-Modal Rescorers

Двойственное выравнивание предварительного обучения для кросс-языкового векторного представления предложений
Dual-Alignment Pre-training for Cross-lingual Sentence Embedding

GPT-Sentinel: Различение контента, созданного человеком и ChatGPT
GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content