Ежедневно отобранные исследовательские статьи по ИИ с переводами
Трансформеры произвели революцию практически во всех задачах обработки естественного языка (NLP), но страдают от квадратичного роста сложности по памяти и вычислениям с увеличением длины последовательности. В то же время рекуррентные нейронные сети (RNN) демонстрируют линейный рост требований к памяти и вычислениям, но не могут достичь такой же производительности, как трансформеры, из-за ограничений в параллелизации и масштабируемости. Мы предлагаем новую архитектуру модели — Receptance Weighted Key Value (RWKV), которая сочетает эффективное параллелизуемое обучение трансформеров с эффективным выводом RNN. Наш подход использует механизм линейного внимания и позволяет формулировать модель как трансформер или RNN, что параллелизует вычисления во время обучения и сохраняет постоянную сложность по вычислениям и памяти во время вывода, что делает RWKV первой архитектурой, не относящейся к трансформерам, которая масштабируется до десятков миллиардов параметров. Наши эксперименты показывают, что RWKV работает на уровне с трансформерами аналогичного размера, что позволяет предположить, что будущие исследования смогут использовать эту архитектуру для создания более эффективных моделей. Эта работа представляет собой значительный шаг к устранению компромиссов между вычислительной эффективностью и производительностью моделей в задачах обработки последовательностей.
Последние достижения в области больших языковых моделей (LLM) впечатляют. Однако эти модели иногда демонстрируют несоответствия и проблемное поведение, например, выдумывают факты, генерируют ошибочный код или создают оскорбительный и токсичный контент. В отличие от таких моделей, люди обычно используют внешние инструменты для проверки и уточнения своего первоначального контента, например, поисковые системы для проверки фактов или интерпретаторы кода для отладки. Вдохновленные этим наблюдением, мы представляем фреймворк под названием CRITIC, который позволяет LLM, по сути являющимся "черными ящиками", проверять и постепенно улучшать свои выходные данные, подобно тому, как люди взаимодействуют с инструментами. Более конкретно, начиная с первоначального результата, CRITIC взаимодействует с подходящими инструментами для оценки определенных аспектов текста, а затем корректирует выходные данные на основе обратной связи, полученной в процессе проверки. Комплексные оценки, включающие свободные ответы на вопросы, синтез математических программ и снижение токсичности, демонстрируют, что CRITIC последовательно улучшает производительность LLM. В то же время наше исследование подчеркивает ключевую важность внешней обратной связи для стимулирования постоянного самоулучшения LLM.
Модели диффузии, управляемые текстом, открыли беспрецедентные возможности в генерации изображений, тогда как их видеоаналоги все еще отстают из-за чрезмерных затрат на обучение временному моделированию. Помимо сложностей с обучением, генерируемые видео также страдают от несогласованности внешнего вида и структурного мерцания, особенно при синтезе длинных видео. Чтобы решить эти проблемы, мы разработали не требующий обучения фреймворк под названием ControlVideo, который обеспечивает естественную и эффективную генерацию видео из текста. ControlVideo, адаптированный из ControlNet, использует грубую структурную согласованность из входных последовательностей движений и вводит три модуля для улучшения генерации видео. Во-первых, для обеспечения согласованности внешнего вида между кадрами ControlVideo добавляет полное межкадровое взаимодействие в модулях self-attention. Во-вторых, для смягчения эффекта мерцания он вводит сглаживатель чередующихся кадров, который применяет интерполяцию кадров на чередующихся кадрах. Наконец, для эффективного создания длинных видео используется иерархический сэмплер, который отдельно синтезирует каждый короткий клип с сохранением целостной согласованности. Благодаря этим модулям ControlVideo превосходит современные методы как количественно, так и качественно на множестве пар "движение-подсказка". Примечательно, что благодаря эффективной конструкции он генерирует как короткие, так и длинные видео в течение нескольких минут с использованием одной видеокарты NVIDIA 2080Ti. Код доступен по адресу https://github.com/YBYBZhang/ControlVideo.
Прогресс в области автономной навигации в веб-пространстве был ограничен зависимостью от миллиардов исследовательских взаимодействий через обучение с подкреплением в онлайн-режиме, а также специфическими для домена моделями, которые затрудняют использование обобщений из богатых данных вне домена. В данной работе мы исследуем обучение веб-агентов на основе данных в автономном режиме с использованием мультимодальных моделей, основанных на обработке изображений и текста. Мы предлагаем мультимодального агента, следующего инструкциям, — WebGUM, который анализирует как скриншоты веб-страниц, так и их HTML-код, и выполняет действия навигации, такие как клики и ввод текста. WebGUM обучается путем совместной тонкой настройки языковой модели, адаптированной для выполнения инструкций, и трансформера для обработки изображений на большом корпусе демонстраций. Мы эмпирически показываем, что такой подход улучшает способности агента к визуальному восприятию, пониманию HTML и многошаговому рассуждению, значительно превосходя предыдущие работы. На бенчмарке MiniWoB мы улучшаем результаты лучших автономных методов более чем на 31,9%, приближаясь к уровню современных методов, обученных в онлайн-режиме. На бенчмарке WebShop наша модель с 3 миллиардами параметров демонстрирует превосходную производительность по сравнению с существующим современным методом PaLM-540B. Мы также собираем 347 тысяч высококачественных демонстраций с использованием наших обученных моделей, что в 38 раз больше, чем в предыдущих работах, и делаем их доступными для содействия дальнейшим исследованиям в этом направлении.
Диффузионные модели представляют собой класс гибких генеративных моделей, обученных с использованием аппроксимации целевой функции логарифмического правдоподобия. Однако в большинстве случаев применения диффузионных моделей основное внимание уделяется не правдоподобию, а конечным целям, таким как воспринимаемое человеком качество изображений или эффективность лекарственных препаратов. В данной статье мы исследуем методы обучения с подкреплением для непосредственной оптимизации диффузионных моделей под такие цели. Мы описываем, как представление процесса удаления шума в виде многошаговой задачи принятия решений позволяет использовать класс алгоритмов градиента стратегии, которые мы называем оптимизацией стратегии удаления шума в диффузионных моделях (DDPO), и которые оказываются более эффективными, чем альтернативные подходы, основанные на взвешенном правдоподобии. Экспериментально показано, что DDPO способна адаптировать текстово-изобразительные диффузионные модели к целям, которые сложно выразить через промпты, таким как сжимаемость изображений, а также к целям, основанным на обратной связи от людей, например, эстетическому качеству. Наконец, мы демонстрируем, что DDPO может улучшить соответствие между промптом и изображением, используя обратную связь от модели обработки визуальной и текстовой информации, без необходимости сбора дополнительных данных или аннотирования человеком.
В последние годы генерация изображений продемонстрировала значительный скачок в производительности, где ключевую роль играют диффузионные модели. Хотя такие модели способны создавать изображения высокого качества, они в основном ориентируются на текстовые описания. Это поднимает вопрос: "как можно адаптировать такие модели для работы с другими модальностями?". В данной статье мы предлагаем новый метод, использующий латентные диффузионные модели, обученные для генерации изображений на основе текста, чтобы создавать изображения, ориентированные на аудиозаписи. Используя предварительно обученную модель кодирования аудио, предложенный метод преобразует аудио в новый токен, который можно рассматривать как адаптационный слой между аудио и текстовыми представлениями. Такая парадигма моделирования требует небольшого количества обучаемых параметров, что делает предложенный подход привлекательным для легковесной оптимизации. Результаты показывают, что предложенный метод превосходит оцениваемые базовые методы как по объективным, так и по субъективным метрикам. Код и примеры доступны по адресу: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
Получившая популярность благодаря Differentiable Search Index, новая парадигма генеративного поиска переосмысливает классическую задачу информационного поиска как задачу моделирования последовательностей, отказываясь от внешних индексов и кодируя весь корпус документов в рамках одного Transformer. Хотя было предложено множество различных подходов для повышения эффективности генеративного поиска, они оценивались только на корпусах документов размером порядка 100 тысяч. Мы проводим первое эмпирическое исследование методов генеративного поиска на различных масштабах корпусов, в конечном итоге масштабируясь до всей задачи ранжирования отрывков MS MARCO с корпусом из 8,8 миллионов отрывков и оценивая модели размером до 11 миллиардов параметров. Мы выявляем несколько важных аспектов масштабирования генеративного поиска на миллионы отрывков; в частности, ключевое значение использования синтетических запросов в качестве представлений документов при индексации, неэффективность существующих предложенных модификаций архитектуры с учетом вычислительных затрат, а также ограничения наивного масштабирования параметров модели с точки зрения производительности поиска. Хотя мы обнаруживаем, что генеративный поиск конкурентоспособен с современными дуальными кодировщиками на небольших корпусах, масштабирование на миллионы отрывков остается важной и нерешенной задачей. Мы считаем, что эти выводы будут полезны для сообщества, чтобы прояснить текущее состояние генеративного поиска, выделить уникальные вызовы и вдохновить новые направления исследований.
В области обработки аудио Transfer Learning способствовал развитию методов Self-Supervised Learning (самообучения) и Zero-Shot Learning (обучения без примеров). Эти подходы привели к созданию универсальных моделей, способных решать широкий спектр задач, демонстрируя при этом передовые результаты. Однако современные модели по своей природе не способны генерировать необходимый язык для задач открытого типа, таких как создание аудиоописаний или ответы на вопросы по аудио. Мы представляем Pengi — новую аудио-языковую модель, которая использует Transfer Learning, представляя все аудиозадачи как задачи генерации текста. Модель принимает на вход аудиозапись и текст, а на выходе генерирует произвольный текст. Входное аудио представляется в виде последовательности непрерывных эмбеддингов с помощью аудиоэнкодера. Текстовый энкодер выполняет аналогичную операцию для соответствующего текстового ввода. Обе последовательности объединяются в качестве префикса для активации предварительно обученной замороженной языковой модели. Унифицированная архитектура Pengi позволяет выполнять как открытые, так и закрытые задачи без дополнительной тонкой настройки или расширений, специфичных для конкретной задачи. При оценке на 22 задачах наш подход демонстрирует передовые результаты в нескольких из них. Наши результаты показывают, что объединение языковых моделей с аудиомоделями является важным шагом на пути к универсальному пониманию аудио.
Недавний быстрый прогресс в предварительном обучении крупных языковых моделей (Large Language Models) основывался на использовании самоконтролируемых задач языкового моделирования, таких как предсказание следующего токена или повреждение фрагментов текста. С другой стороны, системы машинного перевода в основном обучаются с использованием кросс-лингвистического контроля, который требует наличия выровненных данных между исходным и целевым языками. Мы демонстрируем, что предварительное обучение крупных языковых моделей на смеси самоконтролируемой задачи языкового моделирования и контролируемой задачи машинного перевода, включая таким образом кросс-лингвистические параллельные данные в процессе предварительного обучения, приводит к моделям с улучшенными способностями к обучению в контексте. Поскольку предварительное обучение является крайне ресурсоемким процессом, а поиск оптимального соотношения между двумя задачами с помощью полного перебора оказывается непомерно дорогим, мы предлагаем простую, но эффективную стратегию для его автоматического определения в ходе предварительного обучения.
Известно, что большие языковые модели (LLM) запоминают значительные части своих обучающих данных. Было показано, что некоторые из этих запомненных данных могут быть извлечены путем простого запроса к модели, что создает угрозу конфиденциальности. Мы представляем новый подход, использующий настройку промптов для управления уровнем извлечения запомненных данных в LLM. Мы предлагаем две стратегии обучения промптов для увеличения и уменьшения уровня извлечения, что соответствует атаке и защите соответственно. Мы демонстрируем эффективность наших методов, используя модели из семейства GPT-Neo на публичном бенчмарке. Для модели GPT-Neo с 1,3 миллиардами параметров наша атака приводит к увеличению уровня извлечения на 9,3 процентных пункта по сравнению с базовым уровнем. Наша защита может быть настроена для достижения различных компромиссов между конфиденциальностью и полезностью с помощью задаваемого пользователем гиперпараметра. Мы достигаем снижения уровня извлечения до 97,7% относительно базового уровня при увеличении перплексии на 16,9%.
Крупные языковые модели (LLMs) могут использоваться для создания более компактных и уточнённых наборов данных с помощью few-shot prompting для тестирования, тонкой настройки или других задач. Однако понимание и оценка таких наборов данных затруднены, а режимы сбоя данных, сгенерированных LLM, всё ещё недостаточно изучены. В частности, данные могут быть повторяющимися в неожиданных аспектах, не только семантически, но также синтаксически и лексически. Мы представляем LinguisticLens — новый интерактивный инструмент визуализации для анализа и понимания синтаксического разнообразия наборов данных, сгенерированных LLM. LinguisticLens группирует текст по синтаксическим, лексическим и семантическим осям. Он поддерживает иерархическую визуализацию текстового набора данных, позволяя пользователям быстро получить обзор и изучить отдельные примеры. Живая демонстрация доступна по ссылке shorturl.at/zHOUV.
Представления, полученные с помощью однонаправленных языковых моделей на основе трансформеров, известны своей эффективностью в предсказании мозговых реакций на естественный язык. Однако большинство исследований, сравнивающих языковые модели с мозгом, использовали GPT-2 или модели аналогичного размера. В данной работе мы проверили, могут ли более крупные модели с открытым исходным кодом, такие как модели из семейств OPT и LLaMA, лучше предсказывать мозговые реакции, зарегистрированные с помощью фМРТ. В соответствии с результатами масштабирования в других контекстах, мы обнаружили, что производительность предсказания мозговых реакций масштабируется логарифмически-линейно с увеличением размера модели от 125 миллионов до 30 миллиардов параметров, с увеличением производительности кодирования примерно на 15%, измеренной по корреляции с тестовым набором данных у трех испытуемых. Подобное логарифмически-линейное поведение наблюдалось и при увеличении размера обучающего набора данных фМРТ. Мы также исследовали масштабирование для моделей акустического кодирования, использующих HuBERT, WavLM и Whisper, и обнаружили сопоставимые улучшения с увеличением размера модели. Анализ шумового потолка для этих крупных высокопроизводительных моделей кодирования показал, что их производительность приближается к теоретическому максимуму для таких областей мозга, как предклинье и высшая слуховая кора. Эти результаты позволяют предположить, что увеличение масштаба как моделей, так и данных приведет к созданию чрезвычайно эффективных моделей обработки языка в мозге, что позволит достичь лучшего научного понимания, а также реализовать приложения, такие как декодирование.
Наборы данных для оценки стереотипов имеют решающее значение для выявления и смягчения социальных стереотипов о группах людей в моделях обработки естественного языка (NLP). Однако существующие наборы данных ограничены по размеру и охвату и в основном сосредоточены на стереотипах, распространённых в западном обществе. Это особенно проблематично, поскольку языковые технологии получают всё большее распространение по всему миру. Чтобы устранить этот пробел, мы представляем SeeGULL — набор данных с широким охватом стереотипов, созданный с использованием генеративных возможностей крупных языковых моделей, таких как PaLM и GPT-3, и привлечения глобально разнообразной группы экспертов для проверки распространённости этих стереотипов в обществе. SeeGULL представлен на английском языке и содержит стереотипы о группах идентичности из 178 стран, охватывающих 8 различных геополитических регионов на 6 континентах, а также идентичности на уровне штатов в США и Индии. Мы также включаем детализированные оценки оскорбительности для различных стереотипов и демонстрируем их глобальные различия. Кроме того, мы предоставляем сравнительные аннотации об одних и тех же группах, сделанные экспертами, проживающими в регионе, и теми, кто находится в Северной Америке, и показываем, что стереотипы о группах внутри региона отличаются от тех, что распространены в Северной Америке. ПРЕДУПРЕЖДЕНИЕ: В данной статье содержатся примеры стереотипов, которые могут быть оскорбительными.
Внедрение автоматизации в задачи программной инженерии (SE) перешло из теоретической плоскости в практическую. Многочисленные научные статьи задокументировали успешное применение искусственного интеллекта (ИИ) для решения проблем в таких областях, как управление проектами, моделирование, тестирование и разработка. Одним из недавних нововведений стало появление ChatGPT — чат-бота, основанного на машинном обучении (ML), который позиционируется как инструмент, способный генерировать программный код и разрабатывать стратегии тестирования для разработчиков и тестировщиков соответственно. Хотя существует предположение, что вычисления на основе ИИ могут повысить производительность и даже заменить инженеров-программистов в разработке программного обеспечения, в настоящее время отсутствуют эмпирические данные, подтверждающие это. Более того, несмотря на основной акцент на повышении точности систем ИИ, нефункциональные требования, такие как энергоэффективность, уязвимость, справедливость (например, человеческие предубеждения) и безопасность, часто остаются недостаточно изученными. В данной статье утверждается, что всестороннее сравнение инженеров-программистов и решений на основе ИИ с учетом различных критериев оценки имеет ключевое значение для развития сотрудничества между человеком и машиной, повышения надежности методов на основе ИИ и понимания пригодности задач для человека или ИИ. Кроме того, это способствует эффективной реализации совместных рабочих структур и процессов с участием человека (human-in-the-loop). В статье проводится эмпирическое исследование, в котором сравнивается производительность инженеров-программистов и систем ИИ, таких как ChatGPT, по различным оценочным метрикам. Эмпирическое исследование включает случай оценки кода, сгенерированного ChatGPT, в сравнении с кодом, созданным разработчиками и загруженным на платформу Leetcode.
Формулирование избирательных информационных запросов приводит к созданию запросов, которые неявно задают операции над множествами, такие как пересечение, объединение и разность. Например, можно искать "куликов, которые не являются песочниками" или "научно-фантастические фильмы, снятые в Англии". Чтобы изучить способность поисковых систем удовлетворять такие информационные потребности, мы создали QUEST — набор данных из 3357 естественноязыковых запросов с неявными операциями над множествами, которые сопоставляются с набором сущностей, соответствующих документам из Википедии. Этот набор данных проверяет способность моделей сопоставлять несколько ограничений, упомянутых в запросах, с соответствующими доказательствами в документах и корректно выполнять различные операции над множествами. Набор данных создан полуавтоматически с использованием названий категорий Википедии. Запросы автоматически составляются из отдельных категорий, затем перефразируются и дополнительно проверяются на естественность и грамотность с помощью краудворкеров. Краудворкеры также оценивают релевантность сущностей на основе их документов и выделяют атрибуцию ограничений запроса в тексте документа. Мы анализируем несколько современных поисковых систем и обнаруживаем, что они часто испытывают трудности с такими запросами. Запросы, включающие отрицание и конъюнкцию, особенно сложны, а системы сталкиваются с дополнительными трудностями при комбинациях этих операций.
Появление крупных языковых моделей (LLM) существенно повлияло на область обработки естественного языка, продемонстрировав выдающиеся результаты в различных задачах. В данном исследовании мы используем «Интроспективные подсказки» для того, чтобы помочь LLM самостоятельно оптимизировать процесс принятия решений. Путем интроспективного анализа траекторий LLM уточняет свою стратегию, генерируя краткие и полезные подсказки. Наш метод улучшает производительность агента как в условиях обучения с малым количеством примеров (few-shot), так и в условиях обучения без примеров (zero-shot), учитывая три ключевых сценария: обучение на основе прошлого опыта агента, интеграция демонстраций экспертов и обобщение для различных игр. Важно отметить, что мы достигаем этих улучшений без тонкой настройки параметров LLM; вместо этого мы корректируем подсказки, чтобы обобщить инсайты из трех упомянутых ситуаций. Наша структура не только поддерживает, но и подчеркивает преимущество использования LLM для принятия решений в контексте. Эксперименты, проведенные на более чем 100 играх в TextWorld, демонстрируют превосходную производительность нашего подхода.
Крупные языковые модели (LLM) получили широкую популярность и достигли впечатляющих результатов в задачах открытой области, однако их производительность в реальных промышленных сценариях, специфичных для конкретных доменов, остается средней, поскольку в них отсутствует специализированная информация. Эта проблема привлекла широкое внимание, но доступных соответствующих бенчмарков крайне мало. В данной статье мы представляем бенчмарк для задачи вопросов и ответов (QA) под названием MSQA, который посвящен продуктам Microsoft и техническим проблемам, с которыми сталкиваются клиенты. Этот набор данных содержит знания, специфичные для облачных технологий в промышленности, которые недоступны для общих LLM, что делает его идеальным для оценки методов, направленных на улучшение доменно-специфических возможностей LLM. Кроме того, мы предлагаем новую парадигму взаимодействия моделей, которая позволяет LLM достигать лучших результатов в задачах, специфичных для доменов, в которых она не является экспертом. Многочисленные эксперименты демонстрируют, что подход, основанный на нашей модели слияния, превосходит традиционные методы LLM с использованием поиска.
Мы представляем Multi-Objective Counterfactuals for Design (MCD) — новый метод для оптимизации контрафактов в задачах проектирования. Контрафакты представляют собой гипотетические сценарии, которые могут привести к иному решению или выбору. В данной работе авторы формулируют задачу поиска контрафактов как инструмент рекомендаций для проектирования, который помогает выявить модификации конструкции, ведущие к улучшению функциональных характеристик. MCD превосходит существующие методы поиска контрафактов, поддерживая многокритериальные запросы, что крайне важно в задачах проектирования, а также разделяя процессы поиска и выборки контрафактов, что повышает эффективность и упрощает визуализацию компромиссов между целями. В статье демонстрируется основная функциональность MCD на примере двумерного тестового случая, за которым следуют три кейса проектирования велосипедов, показывающие эффективность MCD в реальных задачах проектирования. В первом кейсе MCD успешно рекомендует модификации для запрашиваемых конструкций, которые значительно улучшают функциональные характеристики, такие как снижение веса и повышение коэффициента структурной безопасности. Второй кейс демонстрирует, что MCD может работать с предварительно обученной языковой моделью для эффективного предложения изменений конструкции на основе субъективного текстового запроса. Наконец, авторы поручают MCD задачу увеличения сходства запрашиваемой конструкции с целевым изображением и текстовым запросом при одновременном снижении веса и улучшении структурных характеристик, демонстрируя производительность MCD на сложном многомодальном запросе. В целом, MCD имеет потенциал предоставлять ценные рекомендации для практиков и исследователей в области автоматизации проектирования, ищущих ответы на свои вопросы «Что, если», путем изучения гипотетических модификаций конструкции и их влияния на множественные цели проектирования. Код, тестовые задачи и наборы данных, использованные в статье, доступны публично по адресу decode.mit.edu/projects/counterfactuals/.
Психологи развития десятилетиями разрабатывали эксперименты для проверки интеллекта и знаний младенцев и детей, исследуя происхождение ключевых концепций и способностей. Более того, экспериментальные методы в психологии развития были тщательно разработаны для различения когнитивных способностей, лежащих в основе определенных поведенческих проявлений. Мы предлагаем, что использование классических экспериментов из детской психологии является особенно эффективным способом исследования вычислительных способностей моделей ИИ в целом и крупных языковых моделей (LLM) в частности. Во-первых, методологические приемы психологии развития, такие как использование новых стимулов для контроля прошлого опыта или контрольных условий для определения того, используют ли дети простые ассоциации, могут быть столь же полезны для оценки способностей LLM. В то же время тестирование LLM таким образом может показать, достаточно ли информации, закодированной в тексте, для обеспечения определенных реакций, или же эти реакции зависят от других видов информации, например, от исследования физического мира. В данной работе мы адаптируем классические эксперименты развития для оценки возможностей LaMDA, крупной языковой модели от Google. Мы предлагаем новый метрический показатель — LLM Response Score (LRS), который может быть использован для оценки других языковых моделей, таких как GPT. Мы обнаруживаем, что LaMDA генерирует соответствующие ответы, схожие с реакциями детей в экспериментах, связанных с социальным пониманием, что, возможно, свидетельствует о том, что знание этих областей формируется через язык. С другой стороны, ответы LaMDA в задачах, связанных с пониманием объектов и действий, теорией сознания и особенно причинно-следственными рассуждениями, значительно отличаются от ответов маленьких детей, что, возможно, указывает на то, что эти области требуют большего реального, самостоятельного исследования и не могут быть просто усвоены из паттернов языкового ввода.