Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы обнаружили, что производительность больших языковых моделей (LLM) масштабируется с количеством создаваемых агентов при использовании простого метода выборки и голосования. Кроме того, этот метод ортогонален существующим сложным методам дальнейшего улучшения LLM, при этом степень улучшения коррелирует со сложностью задачи. Мы провели всесторонние эксперименты на широком спектре тестовых наборов для LLM, чтобы подтвердить наше открытие и изучить свойства, которые способствуют его проявлению. Наш код доступен по адресу: https://anonymous.4open.science/r/more_agent_is_all_you_need.
Мы предлагаем задачу разговорной навигации в вебе, где цифровой агент управляет веб-браузером и выполняет инструкции пользователя для решения реальных задач в формате многоходового диалога. Для поддержки этой задачи мы представляем WEBLINX — крупномасштабный бенчмарк, включающий 100 тысяч взаимодействий на основе 2300 экспертных демонстраций разговорной навигации в вебе. Наш бенчмарк охватывает широкий спектр сценариев на более чем 150 реальных веб-сайтах и может использоваться для обучения и оценки агентов в разнообразных условиях. Из-за огромного объема информации, представленной на веб-страницах, крупные языковые модели (LLM) не могут обрабатывать их целиком в реальном времени. Для решения этой проблемы мы разработали модель, вдохновленную методами поиска, которая эффективно сокращает HTML-страницы, ранжируя релевантные элементы. Мы используем выбранные элементы вместе со скриншотами и историей действий для оценки различных моделей на их способность воспроизводить поведение человека при навигации в вебе. Наши эксперименты охватывают как небольшие текстовые модели, так и проприетарные мультимодальные LLM. Мы обнаруживаем, что небольшие дообученные декодеры превосходят лучшие LLM с нулевым обучением (включая GPT-4V), а также более крупные мультимодальные модели, явно предобученные на скриншотах. Однако все дообученные модели испытывают трудности с обобщением на незнакомые веб-сайты. Наши результаты подчеркивают необходимость создания крупных мультимодальных моделей, способных обобщать знания в новых условиях. Наш код, данные и модели доступны для исследований: https://mcgill-nlp.github.io/weblinx.
Разработка систем искусственного интеллекта переходит от создания статических, узкоспециализированных моделей к динамическим, агентно-ориентированным системам, способным эффективно функционировать в широком спектре приложений. Мы предлагаем Интерактивную Базовую Модель Агента, которая использует новую парадигму многозадачного обучения для подготовки ИИ-агентов в различных областях, наборах данных и задачах. Наша парадигма обучения объединяет разнообразные стратегии предварительного обучения, включая визуальные маскированные автокодировщики, языковое моделирование и прогнозирование следующего действия, что позволяет создать универсальную и адаптируемую структуру ИИ. Мы демонстрируем производительность нашей структуры в трех отдельных областях — робототехнике, игровом ИИ и здравоохранении. Наша модель показывает способность генерировать значимые и контекстуально релевантные результаты в каждой из этих областей. Сила нашего подхода заключается в его универсальности, использующей разнообразные источники данных, такие как последовательности робототехнических действий, данные игрового процесса, крупномасштабные видеонаборы и текстовую информацию, для эффективного многомодального и многозадачного обучения. Наш подход открывает перспективные возможности для разработки универсальных, активных, многомодальных систем.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в понимании и генерации естественного языка. Однако их эффективность снижается в узкоспециализированных областях, недостаточно представленных в предобучающем корпусе, таких как физика и биомедицинские науки. В данной работе исследуется, как адаптировать общие LLM для эффективного решения задач в специализированных областях. Мы представляем новый, независимый от модели фреймворк для обучения пользовательских входных тегов, которые параметризуются как непрерывные векторы, добавляемые к слою эмбеддингов LLM, чтобы управлять её поведением. Мы разработали два типа входных тегов: доменные теги используются для выделения специализированных представлений (например, химических формул) и предоставления контекста, релевантного области; функциональные теги используются для представления конкретных функций (например, предсказания молекулярных свойств) и сжатия инструкций для решения задач. Мы разработали трёхэтапный протокол для обучения этих тегов с использованием вспомогательных данных и знаний предметной области. Явно разделяя задачи на домены и функции, наш метод обеспечивает обобщение на новые задачи в режиме zero-shot за счёт различных комбинаций входных тегов. Он также повышает производительность LLM в различных специализированных областях, таких как предсказание свойств белков или химических соединений и моделирование взаимодействий лекарств с мишенями, превосходя экспертные модели, разработанные для этих задач.
В данном техническом отчете представлены методология обучения и результаты оценки открытых многоязычных моделей текстовых эмбеддингов E5, выпущенных в середине 2023 года. Предлагаются три модели эмбеддингов различных размеров (малая / базовая / большая), обеспечивающие баланс между эффективностью вывода и качеством эмбеддингов. Процедура обучения следует рецепту английской модели E5 и включает контрастное предварительное обучение на 1 миллиарде многоязычных текстовых пар с последующей тонкой настройкой на комбинации размеченных наборов данных. Кроме того, представлена новая модель эмбеддингов, настроенная на инструкции, чья производительность сопоставима с современными моделями аналогичного размера, работающими только с английским языком. Информация о выпуске моделей доступна по адресу https://github.com/microsoft/unilm/tree/master/e5.
Несмотря на недавние достижения в персонализированных моделях генерации текста в изображение (P-T2I), задача создания изображений на основе конкретных объектов остается сложной. Основные ограничения включают: 1) Высокие требования к вычислительным ресурсам для обучения, 2) Чувствительность к гиперпараметрам, приводящую к нестабильным результатам, и 3) Сложность балансировки между созданием новых визуальных концепций и их композиционным выравниванием. Мы начинаем с повторения основной философии диффузионных моделей T2I, чтобы преодолеть эти ограничения. Современные подходы к генерации изображений на основе объектов в основном опираются на латентные диффузионные модели (LDMs), которые реализуют отображение текста в изображение через слои кросс-внимания. Хотя LDMs обладают определенными преимуществами, зависимость методов P-T2I от латентного пространства этих моделей значительно увеличивает потребность в ресурсах, приводит к нестабильным результатам и требует множества итераций для получения одного желаемого изображения. Недавно ECLIPSE продемонстрировал более ресурсоэффективный путь обучения моделей T2I на основе UnCLIP, устраняя необходимость в диффузионных априорных моделях текста в изображение. Развивая эту идею, мы представляем lambda-ECLIPSE. Наш метод показывает, что эффективная P-T2I не обязательно зависит от латентного пространства диффузионных моделей. lambda-ECLIPSE достигает персонализации T2I для одного объекта, нескольких объектов и с использованием граничного руководства всего с 34 миллионами параметров и обучается всего за 74 часа на GPU с использованием 1,6 миллиона пар изображение-текст. В ходе обширных экспериментов мы также установили, что lambda-ECLIPSE превосходит существующие базовые подходы в композиционном выравнивании, сохраняя при этом производительность в выравнивании концепций, даже при значительно меньшем использовании ресурсов.
Обучение в контексте (ICL, также известное как few-shot prompting) стало стандартным методом адаптации крупных языковых моделей (LLM) к конкретным задачам путем обучения на нескольких примерах входных и выходных данных. Однако все подходы, основанные на ICL, обучаются только на правильных парах входных и выходных данных. В данной работе мы пересматриваем эту парадигму, стремясь извлечь больше пользы из предоставленных примеров. Мы представляем метод Learning Principles (LEAP): сначала мы намеренно заставляем модель совершать ошибки на этих примерах; затем анализируем эти ошибки и извлекаем из них явные "принципы", специфичные для задачи, которые помогают решать схожие проблемы и избегать типичных ошибок; наконец, мы используем эти принципы вместе с исходными примерами для ответа на новые тестовые вопросы. Мы оцениваем LEAP на широком спектре бенчмарков, включая многошаговый вопросно-ответный анализ (Hotpot QA), текстовый вопросно-ответный анализ (DROP), сложные задачи на рассуждение из Big-Bench Hard и математические задачи (GSM8K и MATH); на всех этих бенчмарках LEAP улучшает результаты самых мощных доступных LLM, таких как GPT-3.5-turbo, GPT-4, GPT-4 turbo и Claude-2.1. Например, LEAP улучшает стандартный few-shot prompting с использованием GPT-4 на 7,5% в DROP и на 3,3% в HotpotQA. Важно отметить, что LEAP не требует дополнительных входных данных или примеров по сравнению со стандартными настройками few-shot prompting.
Мы представляем SPHINX-X, расширенную серию мультимодальных больших языковых моделей (MLLM), разработанную на основе SPHINX. Для повышения эффективности архитектуры и обучения мы модифицируем фреймворк SPHINX, удаляя избыточные визуальные кодировщики, пропуская полностью заполненные суб-изображения с помощью токенов пропуска и упрощая многоэтапное обучение до одноэтапной всеобъемлющей парадигмы. Чтобы полностью раскрыть потенциал MLLM, мы собираем всеобъемлющий мультидоменный и мультимодальный набор данных, охватывающий общедоступные ресурсы в области языка, зрения и задач, связанных с обработкой визуально-языковой информации. Мы дополнительно обогащаем эту коллекцию нашими специально подготовленными наборами данных, ориентированными на OCR и Set-of-Mark, расширяя их разнообразие и универсальность. Обучая модели на различных базовых LLM, включая TinyLlama1.1B, InternLM2-7B, LLaMA2-13B и Mixtral8x7B, мы получаем спектр MLLM, различающихся по размеру параметров и мультиязычным возможностям. Комплексное тестирование выявляет сильную корреляцию между мультимодальной производительностью и масштабами данных и параметров. Код и модели доступны по адресу https://github.com/Alpha-VLLM/LLaMA2-Accessory.
Мы представляем SPIRIT-LM, базовую мультимодальную языковую модель, которая свободно комбинирует текст и речь. Наша модель основана на предобученной текстовой языковой модели, которую мы расширяем для работы с речевой модальностью путем непрерывного обучения на текстовых и речевых единицах. Последовательности речи и текста объединяются в единый набор токенов и обучаются с использованием метода чередования на уровне слов на основе небольшого автоматически созданного параллельного корпуса "речь-текст". SPIRIT-LM представлена в двух версиях: BASE-версия, использующая семантические единицы речи, и EXPRESSIVE-версия, которая моделирует выразительность с помощью единиц высоты тона и стиля в дополнение к семантическим единицам. В обеих версиях текст кодируется с использованием субсловных BPE-токенов. Полученная модель демонстрирует как семантические способности текстовых моделей, так и выразительные возможности речевых моделей. Кроме того, мы показываем, что SPIRIT-LM способна обучаться новым задачам в режиме few-shot (например, ASR, TTS, классификация речи) с учетом различных модальностей.
В данной статье мы представляем новую парадигму для улучшения способностей детектора объектов, например, расширения категорий или повышения качества обнаружения, путем обучения на синтетических данных, сгенерированных с использованием диффузионных моделей. В частности, мы интегрируем модуль локализации на уровне экземпляров в предварительно обученную генеративную диффузионную модель, чтобы наделить ее способностью локализовать произвольные объекты на сгенерированных изображениях. Этот модуль обучается согласовывать текстовые эмбеддинги названий категорий с региональными визуальными признаками диффузионной модели, используя данные от готового детектора объектов и новую схему самообучения на (новых) категориях, не охваченных детектором. Улучшенная версия диффузионной модели, названная InstaGen, может служить генератором данных для задач детекции объектов. Мы проводим всесторонние эксперименты, чтобы показать, что детектор объектов может быть улучшен при обучении на синтетических данных от InstaGen, демонстрируя превосходство над современными методами в сценариях с открытым словарем (+4.5 AP) и при ограниченных данных (+1.2 до 5.2 AP).
Большинство трансформерных видеокодировщиков ограничены короткими временными контекстами из-за их квадратичной сложности. Хотя предпринимались различные попытки расширить этот контекст, это часто достигалось за счет увеличения как концептуальной, так и вычислительной сложности. Мы предлагаем альтернативный подход: перепрофилировать уже предобученные видеотрансформеры, просто дообучая их для внимания к памяти, полученной непараметрически из прошлых активаций. Используя принцип сокращения избыточности, наш трансформер с консолидированной памятью (MC-ViT) легко расширяет свой контекст далеко в прошлое и демонстрирует отличную масштабируемость при обучении на длинных видео. В результате MC-ViT устанавливает новый эталон в понимании длинных видеоконтекстов на наборах данных EgoSchema, Perception Test и Diving48, превосходя методы, которые используют на порядки больше параметров.
Модели Vision-Language (VL) привлекают значительное внимание исследователей, способствуя заметным достижениям в области мультимодального анализа. Такие архитектуры обычно включают визуальный кодировщик, крупную языковую модель (LLM) и проекционный модуль, который согласует визуальные признаки с пространством представлений LLM. Несмотря на их успех, сохраняется ключевое ограничение: процесс кодирования визуальной информации остается оторванным от пользовательских запросов, часто представленных в виде вопросов, связанных с изображением. В результате полученные визуальные признаки могут не оптимально учитывать элементы изображения, релевантные конкретному запросу. Для решения этой проблемы мы представляем QA-ViT — подход Question Aware Vision Transformer для мультимодального анализа, который встраивает осведомленность о вопросе непосредственно в визуальный кодировщик. Такая интеграция позволяет получать динамические визуальные признаки, фокусирующиеся на аспектах изображения, важных для заданного вопроса. QA-ViT является модель-независимым и может быть эффективно интегрирован в любую архитектуру VL. Многочисленные эксперименты демонстрируют эффективность применения нашего метода к различным мультимодальным архитектурам, приводя к устойчивому улучшению в разнообразных задачах и показывая его потенциал для углубления понимания визуальной информации и текста в сценах.
Мы представляем новый алгоритм для оптимизации распределений, заданных неявно через параметризованные стохастические диффузии. Это позволяет нам изменять результирующее распределение процессов выборки путем оптимизации их параметров. Мы вводим общий фреймворк для оптимизации первого порядка этих процессов, который выполняет совместно, в одном цикле, шаги оптимизации и выборки. Этот подход вдохновлен последними достижениями в области двухуровневой оптимизации и автоматического неявного дифференцирования, используя представление выборки как оптимизации в пространстве вероятностных распределений. Мы предоставляем теоретические гарантии производительности нашего метода, а также экспериментальные результаты, демонстрирующие его эффективность в реальных условиях.
Адаптация стиля вождения к новым условиям, обычаям и законам является давней проблемой в области автономного вождения, что препятствует широкому внедрению автономных транспортных средств (АТС). В данной статье мы представляем LLaDA — простой, но мощный инструмент, который позволяет как людям-водителям, так и автономным транспортным средствам ездить повсюду, адаптируя свои задачи и планы движения к правилам дорожного движения в новых локациях. LLaDA достигает этого, используя впечатляющую способность крупных языковых моделей (LLM) к обобщению без предварительного обучения (zero-shot) для интерпретации правил дорожного движения из местных руководств для водителей. В ходе масштабного пользовательского исследования мы показываем, что инструкции LLaDA полезны для разрешения неоднозначных ситуаций в реальных условиях. Мы также демонстрируем способность LLaDA адаптировать политики планирования движения АТС на реальных наборах данных; LLaDA превосходит базовые подходы к планированию по всем нашим метрикам. Подробности можно найти на нашем сайте: https://boyiliee.github.io/llada.
Мы демонстрируем, что обучение с подкреплением методом актор-критик в оффлайн-режиме может масштабироваться до больших моделей, таких как трансформеры, и следует схожим законам масштабирования, как и обучение с учителем. Мы обнаруживаем, что оффлайн-алгоритмы актор-критик могут превосходить сильные базовые модели поведенческого клонирования с учителем при многозадачном обучении на большом наборе данных, содержащем как субоптимальное, так и экспертное поведение, на 132 задачах непрерывного управления. Мы представляем модель актор-критик на основе Perceiver и раскрываем ключевые особенности модели, необходимые для успешной работы оффлайн-обучения с подкреплением с использованием модулей самовнимания и кросс-внимания. В целом, мы приходим к следующим выводам: i) простые оффлайн-алгоритмы актор-критик являются естественным выбором для постепенного отхода от текущей преобладающей парадигмы поведенческого клонирования, и ii) с помощью оффлайн-обучения с подкреплением возможно обучать многозадачные политики, которые одновременно осваивают множество областей, включая задачи реальной робототехники, на основе субоптимальных демонстраций или самостоятельно сгенерированных данных.