HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

15 papers found

Больше агентов — это всё, что вам нужно
More Agents Is All You Need

Feb 3

ByJunyou Li, Qin Zhang, Yangbin Yu, Qiang Fu, Deheng Ye

Мы обнаружили, что производительность больших языковых моделей (LLM) масштабируется с количеством создаваемых агентов при использовании простого метода выборки и голосования. Кроме того, этот метод ортогонален существующим сложным методам дальнейшего улучшения LLM, при этом степень улучшения коррелирует со сложностью задачи. Мы провели всесторонние эксперименты на широком спектре тестовых наборов для LLM, чтобы подтвердить наше открытие и изучить свойства, которые способствуют его проявлению. Наш код доступен по адресу: https://anonymous.4open.science/r/more_agent_is_all_you_need.

WebLINX: Навигация по реальным веб-сайтам с многошаговым диалогом
WebLINX: Real-World Website Navigation with Multi-Turn Dialogue

Feb 8

ByXing Han Lù, Zdeněk Kasner, Siva Reddy

Мы предлагаем задачу разговорной навигации в вебе, где цифровой агент управляет веб-браузером и выполняет инструкции пользователя для решения реальных задач в формате многоходового диалога. Для поддержки этой задачи мы представляем WEBLINX — крупномасштабный бенчмарк, включающий 100 тысяч взаимодействий на основе 2300 экспертных демонстраций разговорной навигации в вебе. Наш бенчмарк охватывает широкий спектр сценариев на более чем 150 реальных веб-сайтах и может использоваться для обучения и оценки агентов в разнообразных условиях. Из-за огромного объема информации, представленной на веб-страницах, крупные языковые модели (LLM) не могут обрабатывать их целиком в реальном времени. Для решения этой проблемы мы разработали модель, вдохновленную методами поиска, которая эффективно сокращает HTML-страницы, ранжируя релевантные элементы. Мы используем выбранные элементы вместе со скриншотами и историей действий для оценки различных моделей на их способность воспроизводить поведение человека при навигации в вебе. Наши эксперименты охватывают как небольшие текстовые модели, так и проприетарные мультимодальные LLM. Мы обнаруживаем, что небольшие дообученные декодеры превосходят лучшие LLM с нулевым обучением (включая GPT-4V), а также более крупные мультимодальные модели, явно предобученные на скриншотах. Однако все дообученные модели испытывают трудности с обобщением на незнакомые веб-сайты. Наши результаты подчеркивают необходимость создания крупных мультимодальных моделей, способных обобщать знания в новых условиях. Наш код, данные и модели доступны для исследований: https://mcgill-nlp.github.io/weblinx.

Фундаментальная модель интерактивного агента
An Interactive Agent Foundation Model

Feb 8

ByZane Durante, Bidipta Sarkar, Ran Gong, Rohan Taori, Yusuke Noda, Paul Tang, Ehsan Adeli, Shrinidhi Kowshika Lakshmikanth, Kevin Schulman, Arnold Milstein, Demetri Terzopoulos, Ade Famoti, Noboru Kuno, Ashley Llorens, Hoi Vo, Katsu Ikeuchi, Li Fei-Fei, Jianfeng Gao, Naoki Wake, Qiuyuan Huang

Разработка систем искусственного интеллекта переходит от создания статических, узкоспециализированных моделей к динамическим, агентно-ориентированным системам, способным эффективно функционировать в широком спектре приложений. Мы предлагаем Интерактивную Базовую Модель Агента, которая использует новую парадигму многозадачного обучения для подготовки ИИ-агентов в различных областях, наборах данных и задачах. Наша парадигма обучения объединяет разнообразные стратегии предварительного обучения, включая визуальные маскированные автокодировщики, языковое моделирование и прогнозирование следующего действия, что позволяет создать универсальную и адаптируемую структуру ИИ. Мы демонстрируем производительность нашей структуры в трех отдельных областях — робототехнике, игровом ИИ и здравоохранении. Наша модель показывает способность генерировать значимые и контекстуально релевантные результаты в каждой из этих областей. Сила нашего подхода заключается в его универсальности, использующей разнообразные источники данных, такие как последовательности робототехнических действий, данные игрового процесса, крупномасштабные видеонаборы и текстовую информацию, для эффективного многомодального и многозадачного обучения. Наш подход открывает перспективные возможности для разработки универсальных, активных, многомодальных систем.

Tag-LLM: Адаптация универсальных языковых моделей для специализированных областей
Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains

Feb 6

ByJunhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в понимании и генерации естественного языка. Однако их эффективность снижается в узкоспециализированных областях, недостаточно представленных в предобучающем корпусе, таких как физика и биомедицинские науки. В данной работе исследуется, как адаптировать общие LLM для эффективного решения задач в специализированных областях. Мы представляем новый, независимый от модели фреймворк для обучения пользовательских входных тегов, которые параметризуются как непрерывные векторы, добавляемые к слою эмбеддингов LLM, чтобы управлять её поведением. Мы разработали два типа входных тегов: доменные теги используются для выделения специализированных представлений (например, химических формул) и предоставления контекста, релевантного области; функциональные теги используются для представления конкретных функций (например, предсказания молекулярных свойств) и сжатия инструкций для решения задач. Мы разработали трёхэтапный протокол для обучения этих тегов с использованием вспомогательных данных и знаний предметной области. Явно разделяя задачи на домены и функции, наш метод обеспечивает обобщение на новые задачи в режиме zero-shot за счёт различных комбинаций входных тегов. Он также повышает производительность LLM в различных специализированных областях, таких как предсказание свойств белков или химических соединений и моделирование взаимодействий лекарств с мишенями, превосходя экспертные модели, разработанные для этих задач.

Многоязычные текстовые эмбеддинги E5: Технический отчет
Multilingual E5 Text Embeddings: A Technical Report

Feb 8

ByLiang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei

В данном техническом отчете представлены методология обучения и результаты оценки открытых многоязычных моделей текстовых эмбеддингов E5, выпущенных в середине 2023 года. Предлагаются три модели эмбеддингов различных размеров (малая / базовая / большая), обеспечивающие баланс между эффективностью вывода и качеством эмбеддингов. Процедура обучения следует рецепту английской модели E5 и включает контрастное предварительное обучение на 1 миллиарде многоязычных текстовых пар с последующей тонкой настройкой на комбинации размеченных наборов данных. Кроме того, представлена новая модель эмбеддингов, настроенная на инструкции, чья производительность сопоставима с современными моделями аналогичного размера, работающими только с английским языком. Информация о выпуске моделей доступна по адресу https://github.com/microsoft/unilm/tree/master/e5.

λ-ECLIPSE: Модели генерации персонализированных изображений по тексту с поддержкой нескольких концепций через использование латентного пространства CLIP
λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

Feb 7

ByMaitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang

Несмотря на недавние достижения в персонализированных моделях генерации текста в изображение (P-T2I), задача создания изображений на основе конкретных объектов остается сложной. Основные ограничения включают: 1) Высокие требования к вычислительным ресурсам для обучения, 2) Чувствительность к гиперпараметрам, приводящую к нестабильным результатам, и 3) Сложность балансировки между созданием новых визуальных концепций и их композиционным выравниванием. Мы начинаем с повторения основной философии диффузионных моделей T2I, чтобы преодолеть эти ограничения. Современные подходы к генерации изображений на основе объектов в основном опираются на латентные диффузионные модели (LDMs), которые реализуют отображение текста в изображение через слои кросс-внимания. Хотя LDMs обладают определенными преимуществами, зависимость методов P-T2I от латентного пространства этих моделей значительно увеличивает потребность в ресурсах, приводит к нестабильным результатам и требует множества итераций для получения одного желаемого изображения. Недавно ECLIPSE продемонстрировал более ресурсоэффективный путь обучения моделей T2I на основе UnCLIP, устраняя необходимость в диффузионных априорных моделях текста в изображение. Развивая эту идею, мы представляем lambda-ECLIPSE. Наш метод показывает, что эффективная P-T2I не обязательно зависит от латентного пространства диффузионных моделей. lambda-ECLIPSE достигает персонализации T2I для одного объекта, нескольких объектов и с использованием граничного руководства всего с 34 миллионами параметров и обучается всего за 74 часа на GPU с использованием 1,6 миллиона пар изображение-текст. В ходе обширных экспериментов мы также установили, что lambda-ECLIPSE превосходит существующие базовые подходы в композиционном выравнивании, сохраняя при этом производительность в выравнивании концепций, даже при значительно меньшем использовании ресурсов.

Обучение принципам на основе ошибок в контексте
In-Context Principle Learning from Mistakes

Feb 8

ByTianjun Zhang, Aman Madaan, Luyu Gao, Steven Zheng, Swaroop Mishra, Yiming Yang, Niket Tandon, Uri Alon

Обучение в контексте (ICL, также известное как few-shot prompting) стало стандартным методом адаптации крупных языковых моделей (LLM) к конкретным задачам путем обучения на нескольких примерах входных и выходных данных. Однако все подходы, основанные на ICL, обучаются только на правильных парах входных и выходных данных. В данной работе мы пересматриваем эту парадигму, стремясь извлечь больше пользы из предоставленных примеров. Мы представляем метод Learning Principles (LEAP): сначала мы намеренно заставляем модель совершать ошибки на этих примерах; затем анализируем эти ошибки и извлекаем из них явные "принципы", специфичные для задачи, которые помогают решать схожие проблемы и избегать типичных ошибок; наконец, мы используем эти принципы вместе с исходными примерами для ответа на новые тестовые вопросы. Мы оцениваем LEAP на широком спектре бенчмарков, включая многошаговый вопросно-ответный анализ (Hotpot QA), текстовый вопросно-ответный анализ (DROP), сложные задачи на рассуждение из Big-Bench Hard и математические задачи (GSM8K и MATH); на всех этих бенчмарках LEAP улучшает результаты самых мощных доступных LLM, таких как GPT-3.5-turbo, GPT-4, GPT-4 turbo и Claude-2.1. Например, LEAP улучшает стандартный few-shot prompting с использованием GPT-4 на 7,5% в DROP и на 3,3% в HotpotQA. Важно отметить, что LEAP не требует дополнительных входных данных или примеров по сравнению со стандартными настройками few-shot prompting.

SPHINX-X: Масштабирование данных и параметров для семейства мультимодальных больших языковых моделей
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Feb 8

ByPeng Gao, Renrui Zhang, Chris Liu, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao

Мы представляем SPHINX-X, расширенную серию мультимодальных больших языковых моделей (MLLM), разработанную на основе SPHINX. Для повышения эффективности архитектуры и обучения мы модифицируем фреймворк SPHINX, удаляя избыточные визуальные кодировщики, пропуская полностью заполненные суб-изображения с помощью токенов пропуска и упрощая многоэтапное обучение до одноэтапной всеобъемлющей парадигмы. Чтобы полностью раскрыть потенциал MLLM, мы собираем всеобъемлющий мультидоменный и мультимодальный набор данных, охватывающий общедоступные ресурсы в области языка, зрения и задач, связанных с обработкой визуально-языковой информации. Мы дополнительно обогащаем эту коллекцию нашими специально подготовленными наборами данных, ориентированными на OCR и Set-of-Mark, расширяя их разнообразие и универсальность. Обучая модели на различных базовых LLM, включая TinyLlama1.1B, InternLM2-7B, LLaMA2-13B и Mixtral8x7B, мы получаем спектр MLLM, различающихся по размеру параметров и мультиязычным возможностям. Комплексное тестирование выявляет сильную корреляцию между мультимодальной производительностью и масштабами данных и параметров. Код и модели доступны по адресу https://github.com/Alpha-VLLM/LLaMA2-Accessory.

SpiRit-LM: Чередующаяся модель языка для устной и письменной речи
SpiRit-LM: Interleaved Spoken and Written Language Model

Feb 8

ByTu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux

Мы представляем SPIRIT-LM, базовую мультимодальную языковую модель, которая свободно комбинирует текст и речь. Наша модель основана на предобученной текстовой языковой модели, которую мы расширяем для работы с речевой модальностью путем непрерывного обучения на текстовых и речевых единицах. Последовательности речи и текста объединяются в единый набор токенов и обучаются с использованием метода чередования на уровне слов на основе небольшого автоматически созданного параллельного корпуса "речь-текст". SPIRIT-LM представлена в двух версиях: BASE-версия, использующая семантические единицы речи, и EXPRESSIVE-версия, которая моделирует выразительность с помощью единиц высоты тона и стиля в дополнение к семантическим единицам. В обеих версиях текст кодируется с использованием субсловных BPE-токенов. Полученная модель демонстрирует как семантические способности текстовых моделей, так и выразительные возможности речевых моделей. Кроме того, мы показываем, что SPIRIT-LM способна обучаться новым задачам в режиме few-shot (например, ASR, TTS, классификация речи) с учетом различных модальностей.

InstaGen: Улучшение обнаружения объектов за счет обучения на синтетическом наборе данных
InstaGen: Enhancing Object Detection by Training on Synthetic Dataset

Feb 8

ByChengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie, Lin Ma

В данной статье мы представляем новую парадигму для улучшения способностей детектора объектов, например, расширения категорий или повышения качества обнаружения, путем обучения на синтетических данных, сгенерированных с использованием диффузионных моделей. В частности, мы интегрируем модуль локализации на уровне экземпляров в предварительно обученную генеративную диффузионную модель, чтобы наделить ее способностью локализовать произвольные объекты на сгенерированных изображениях. Этот модуль обучается согласовывать текстовые эмбеддинги названий категорий с региональными визуальными признаками диффузионной модели, используя данные от готового детектора объектов и новую схему самообучения на (новых) категориях, не охваченных детектором. Улучшенная версия диффузионной модели, названная InstaGen, может служить генератором данных для задач детекции объектов. Мы проводим всесторонние эксперименты, чтобы показать, что детектор объектов может быть улучшен при обучении на синтетических данных от InstaGen, демонстрируя превосходство над современными методами в сценариях с открытым словарем (+4.5 AP) и при ограниченных данных (+1.2 до 5.2 AP).

Консолидация памяти обеспечивает понимание видео с длинным контекстом
Memory Consolidation Enables Long-Context Video Understanding

Feb 8

ByIvana Balažević, Yuge Shi, Pinelopi Papalampidi, Rahma Chaabouni, Skanda Koppula, Olivier J. Hénaff

Большинство трансформерных видеокодировщиков ограничены короткими временными контекстами из-за их квадратичной сложности. Хотя предпринимались различные попытки расширить этот контекст, это часто достигалось за счет увеличения как концептуальной, так и вычислительной сложности. Мы предлагаем альтернативный подход: перепрофилировать уже предобученные видеотрансформеры, просто дообучая их для внимания к памяти, полученной непараметрически из прошлых активаций. Используя принцип сокращения избыточности, наш трансформер с консолидированной памятью (MC-ViT) легко расширяет свой контекст далеко в прошлое и демонстрирует отличную масштабируемость при обучении на длинных видео. В результате MC-ViT устанавливает новый эталон в понимании длинных видеоконтекстов на наборах данных EgoSchema, Perception Test и Diving48, превосходя методы, которые используют на порядки больше параметров.

Вопросно-ориентированный Vision Transformer для мультимодального рассуждения
Question Aware Vision Transformer for Multimodal Reasoning

Feb 8

ByRoy Ganz, Yair Kittenplon, Aviad Aberdam, Elad Ben Avraham, Oren Nuriel, Shai Mazor, Ron Litman

Модели Vision-Language (VL) привлекают значительное внимание исследователей, способствуя заметным достижениям в области мультимодального анализа. Такие архитектуры обычно включают визуальный кодировщик, крупную языковую модель (LLM) и проекционный модуль, который согласует визуальные признаки с пространством представлений LLM. Несмотря на их успех, сохраняется ключевое ограничение: процесс кодирования визуальной информации остается оторванным от пользовательских запросов, часто представленных в виде вопросов, связанных с изображением. В результате полученные визуальные признаки могут не оптимально учитывать элементы изображения, релевантные конкретному запросу. Для решения этой проблемы мы представляем QA-ViT — подход Question Aware Vision Transformer для мультимодального анализа, который встраивает осведомленность о вопросе непосредственно в визуальный кодировщик. Такая интеграция позволяет получать динамические визуальные признаки, фокусирующиеся на аспектах изображения, важных для заданного вопроса. QA-ViT является модель-независимым и может быть эффективно интегрирован в любую архитектуру VL. Многочисленные эксперименты демонстрируют эффективность применения нашего метода к различным мультимодальным архитектурам, приводя к устойчивому улучшению в разнообразных задачах и показывая его потенциал для углубления понимания визуальной информации и текста в сценах.

Неявная диффузия: эффективная оптимизация через стохастическую выборку
Implicit Diffusion: Efficient Optimization through Stochastic Sampling

Feb 8

ByPierre Marion, Anna Korba, Peter Bartlett, Mathieu Blondel, Valentin De Bortoli, Arnaud Doucet, Felipe Llinares-López, Courtney Paquette, Quentin Berthet

Мы представляем новый алгоритм для оптимизации распределений, заданных неявно через параметризованные стохастические диффузии. Это позволяет нам изменять результирующее распределение процессов выборки путем оптимизации их параметров. Мы вводим общий фреймворк для оптимизации первого порядка этих процессов, который выполняет совместно, в одном цикле, шаги оптимизации и выборки. Этот подход вдохновлен последними достижениями в области двухуровневой оптимизации и автоматического неявного дифференцирования, используя представление выборки как оптимизации в пространстве вероятностных распределений. Мы предоставляем теоретические гарантии производительности нашего метода, а также экспериментальные результаты, демонстрирующие его эффективность в реальных условиях.

Оффлайн-актор-критическое обучение с подкреплением масштабируется для больших моделей
Offline Actor-Critic Reinforcement Learning Scales to Large Models

Feb 8

ByJost Tobias Springenberg, Abbas Abdolmaleki, Jingwei Zhang, Oliver Groth, Michael Bloesch, Thomas Lampe, Philemon Brakel, Sarah Bechtle, Steven Kapturowski, Roland Hafner, Nicolas Heess, Martin Riedmiller

Мы демонстрируем, что обучение с подкреплением методом актор-критик в оффлайн-режиме может масштабироваться до больших моделей, таких как трансформеры, и следует схожим законам масштабирования, как и обучение с учителем. Мы обнаруживаем, что оффлайн-алгоритмы актор-критик могут превосходить сильные базовые модели поведенческого клонирования с учителем при многозадачном обучении на большом наборе данных, содержащем как субоптимальное, так и экспертное поведение, на 132 задачах непрерывного управления. Мы представляем модель актор-критик на основе Perceiver и раскрываем ключевые особенности модели, необходимые для успешной работы оффлайн-обучения с подкреплением с использованием модулей самовнимания и кросс-внимания. В целом, мы приходим к следующим выводам: i) простые оффлайн-алгоритмы актор-критик являются естественным выбором для постепенного отхода от текущей преобладающей парадигмы поведенческого клонирования, и ii) с помощью оффлайн-обучения с подкреплением возможно обучать многозадачные политики, которые одновременно осваивают множество областей, включая задачи реальной робототехники, на основе субоптимальных демонстраций или самостоятельно сгенерированных данных.

Управление повсюду с адаптацией политики на основе крупных языковых моделей
Driving Everywhere with Large Language Model Policy Adaptation

Feb 8

ByBoyi Li, Yue Wang, Jiageng Mao, Boris Ivanovic, Sushant Veer, Karen Leung, Marco Pavone

Адаптация стиля вождения к новым условиям, обычаям и законам является давней проблемой в области автономного вождения, что препятствует широкому внедрению автономных транспортных средств (АТС). В данной статье мы представляем LLaDA — простой, но мощный инструмент, который позволяет как людям-водителям, так и автономным транспортным средствам ездить повсюду, адаптируя свои задачи и планы движения к правилам дорожного движения в новых локациях. LLaDA достигает этого, используя впечатляющую способность крупных языковых моделей (LLM) к обобщению без предварительного обучения (zero-shot) для интерпретации правил дорожного движения из местных руководств для водителей. В ходе масштабного пользовательского исследования мы показываем, что инструкции LLaDA полезны для разрешения неоднозначных ситуаций в реальных условиях. Мы также демонстрируем способность LLaDA адаптировать политики планирования движения АТС на реальных наборах данных; LLaDA превосходит базовые подходы к планированию по всем нашим метрикам. Подробности можно найти на нашем сайте: https://boyiliee.github.io/llada.

λ-ECLIPSE: Модели генерации персонализированных изображений по тексту с поддержкой нескольких концепций через использование латентного пространства CLIP
λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

Feb 7

ByMaitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang