HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

15 papers found

Aya Model: Многоязычная языковая модель с открытым доступом, дообученная на инструкциях
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

Feb 12

ByAhmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker

Недавние прорывы в области больших языковых моделей (LLMs) сосредоточены на нескольких языках с богатыми данными. Что требуется для расширения доступа к этим достижениям за пределы языков "первого класса"? Наша работа представляет Aya — массово многоязычную генеративную языковую модель, которая выполняет инструкции на 101 языке, более 50% из которых считаются малоресурсными. Aya превосходит модели mT0 и BLOOMZ в большинстве задач, охватывая вдвое больше языков. Мы представляем обширные новые наборы для оценки, которые расширяют современные стандарты многоязычного тестирования на 99 языков, включая дискриминативные и генеративные задачи, человеческую оценку и моделируемые показатели успеха, охватывающие как задачи с исключенными данными, так и производительность в рамках распределения. Кроме того, мы проводим детальные исследования оптимального состава смеси для тонкой настройки, обрезки данных, а также токсичности, предвзятости и безопасности наших моделей. Мы открываем исходные коды наших наборов инструкций и модели по адресу https://hf.co/CohereForAI/aya-101.

OS-Copilot: На пути к универсальным компьютерным агентам с возможностью самосовершенствования
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Feb 12

ByZhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu, Shunyu Yao, Tao Yu, Lingpeng Kong

Автономное взаимодействие с компьютером долгое время оставалось сложной задачей, обладающей огромным потенциалом, и недавнее распространение больших языковых моделей (LLM) значительно ускорило прогресс в создании цифровых агентов. Однако большинство таких агентов разработаны для взаимодействия с узкой областью, например, с конкретным программным обеспечением или веб-сайтом. Такая узкая направленность ограничивает их применимость для выполнения общих компьютерных задач. В связи с этим мы представляем OS-Copilot — фреймворк для создания универсальных агентов, способных взаимодействовать с различными элементами операционной системы (ОС), включая веб, терминалы, файлы, мультимедиа и сторонние приложения. С помощью OS-Copilot мы создали FRIDAY — самообучающегося воплощённого агента для автоматизации общих компьютерных задач. На бенчмарке GAIA, предназначенном для оценки универсальных ИИ-ассистентов, FRIDAY превосходит предыдущие методы на 35%, демонстрируя сильную способность к обобщению для работы с новыми приложениями благодаря накопленным навыкам из предыдущих задач. Мы также представляем численные и качественные доказательства того, что FRIDAY обучается управлению и самообучению в Excel и PowerPoint при минимальном контроле. Наш фреймворк OS-Copilot и эмпирические результаты предоставляют инфраструктуру и идеи для будущих исследований в направлении создания более мощных и универсальных компьютерных агентов.

ChemLLM: Химическая модель большого языка
ChemLLM: A Chemical Large Language Model

Feb 10

ByDi Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang

Крупные языковые модели (LLM) достигли значительных успехов в химических приложениях, включая предсказание свойств молекул, генерацию молекул, разработку экспериментальных протоколов и т.д. Однако сообществу не хватает диалоговой модели, специально разработанной для химии. Основная сложность заключается в том, что большинство химических данных и научных знаний хранятся в структурированных базах данных, и прямое использование этих структурированных данных ограничивает способность модели поддерживать связный диалог. Для решения этой проблемы мы разработали новый метод построения инструкций на основе шаблонов, который преобразует структурированные знания в простой диалоговый формат, подходящий для обучения языковых моделей. Используя этот подход, мы создали ChemLLM — первую крупную языковую модель, посвящённую химии, способную выполнять различные задачи в химических дисциплинах с плавным диалоговым взаимодействием. ChemLLM превосходит GPT-3.5 по всем трём основным задачам в химии, таким как конвертация названий, описание молекул и предсказание реакций, и опережает GPT-4 по двум из них. Примечательно, что ChemLLM также демонстрирует исключительную адаптивность к связанным математическим и физическим задачам, несмотря на обучение преимущественно на химически ориентированных корпусах. Кроме того, ChemLLM показывает высокую эффективность в специализированных NLP-задачах в химии, таких как перевод научной литературы и программирование в области хемоинформатики. ChemLLM открывает новые возможности для исследований в химии, а наш метод интеграции структурированных химических знаний в диалоговые системы задаёт новый стандарт для разработки LLM в различных научных областях. Коды, наборы данных и веса модели доступны публично по адресу hf.co/AI4Chem/ChemLLM-7B-Chat.

Fiddler: Оркестрация CPU-GPU для быстрого вывода моделей смеси экспертов
Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models

Feb 10

ByKeisuke Kamahori, Yile Gu, Kan Zhu, Baris Kasikci

Крупные языковые модели (LLM), основанные на архитектуре Mixture-of-Experts (MoE), демонстрируют многообещающие результаты в различных задачах. Однако их запуск в условиях ограниченных ресурсов, где объем памяти GPU недостаточен, является сложной задачей из-за огромных размеров моделей. Существующие системы, которые выгружают веса модели в память CPU, страдают от значительных накладных расходов, связанных с частым перемещением данных между CPU и GPU. В данной статье мы предлагаем Fiddler — ресурсоэффективный механизм вывода с координацией работы CPU и GPU для моделей MoE. Основная идея Fiddler заключается в использовании вычислительных возможностей CPU для минимизации перемещения данных между CPU и GPU. Наши оценки показывают, что Fiddler способен запускать несжатую модель Mixtral-8x7B, которая превышает 90 ГБ параметров, генерируя более 3 токенов в секунду на одном GPU с 24 ГБ памяти, что демонстрирует улучшение на порядок по сравнению с существующими методами. Код Fiddler доступен публично по адресу https://github.com/efeslab/fiddler.

История о хвостах: коллапс модели как изменение законов масштабирования
A Tale of Tails: Model Collapse as a Change of Scaling Laws

Feb 10

ByElvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe

По мере увеличения размеров моделей ИИ, законы масштабирования нейронных сетей стали важным инструментом для прогнозирования улучшений крупных моделей при увеличении их мощности и объема исходных (человеческих или естественных) обучающих данных. Однако широкое использование популярных моделей означает, что экосистема онлайн-данных и текстов будет эволюционировать, постепенно включая всё больше синтезированных данных. В данной статье мы задаемся вопросом: как изменятся законы масштабирования в неизбежном режиме, когда синтетические данные начнут попадать в обучающий корпус? Будут ли будущие модели продолжать улучшаться или обречены на деградацию вплоть до полного (модельного) коллапса? Мы разрабатываем теоретическую основу для изучения модельного коллапса через призму законов масштабирования. Мы обнаруживаем широкий спектр явлений ухудшения, анализируя потерю масштабируемости, смещение масштабирования с увеличением числа поколений, «разучивание» навыков и феномен «гроккинга» при смешении человеческих и синтезированных данных. Наша теория подтверждается крупномасштабными экспериментами с трансформером на арифметической задаче и генерацией текста с использованием крупной языковой модели Llama2.

PIVOT: Итеративное визуальное подсказывание извлекает полезные знания для моделей визуального языка
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

Feb 12

BySoroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter

Модели, объединяющие зрение и язык (Vision Language Models, VLMs), продемонстрировали впечатляющие возможности в решении разнообразных задач, от логического рассуждения до визуального понимания. Это открывает путь к более богатому взаимодействию с окружающим миром, например, к управлению роботами. Однако VLMs генерируют только текстовые выходные данные, в то время как управление роботами и другие пространственные задачи требуют вывода непрерывных координат, действий или траекторий. Как мы можем позволить VLMs справляться с такими задачами без тонкой настройки на специфичных данных? В данной статье мы предлагаем новый подход визуального подсказывания для VLMs, который мы называем Prompting with Iterative Visual Optimization (PIVOT). Этот подход преобразует задачи в итеративное визуальное вопросно-ответное взаимодействие. На каждой итерации изображение аннотируется визуальным представлением предложений, на которые может ссылаться VLM (например, возможные действия робота, локализации или траектории). Затем VLM выбирает наилучшие из них для выполнения задачи. Эти предложения итеративно уточняются, что позволяет VLM в конечном итоге найти наилучший доступный ответ. Мы исследуем PIVOT на задачах навигации роботов в реальном мире, манипуляций на основе изображений, выполнения инструкций в симуляции, а также на дополнительных задачах пространственного вывода, таких как локализация. Мы обнаружили, что, возможно, удивительно, наш подход позволяет осуществлять управление роботами без предварительного обучения на данных, связанных с роботами, навигацию в различных средах и другие возможности. Хотя текущая производительность далека от идеальной, наша работа подчеркивает потенциал и ограничения этого нового подхода и демонстрирует перспективный метод для VLMs масштаба интернета в областях робототехники и пространственного рассуждения. Веб-сайт: pivot-prompt.github.io и HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.

Создание системы преобразования текста в речь на основе Flow Matching с нулевым обучением, способной смеяться по вашему желанию
Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like

Feb 12

ByNaoyuki Kanda, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Canrun Li, Steven Tsai, Zhen Xiao, Yufei Xia, Jinzhu Li, Yanqing Liu, Sheng Zhao, Michael Zeng

Смех является одним из самых выразительных и естественных аспектов человеческой речи, передающим эмоции, социальные сигналы и юмор. Однако большинство систем преобразования текста в речь (TTS) не способны воспроизводить реалистичные и уместные звуки смеха, что ограничивает их применение и качество взаимодействия с пользователем. Хотя ранее предпринимались попытки генерации естественного смеха, они не достигали достаточного уровня контроля над временем и разнообразием генерируемого смеха. В данной работе мы представляем ELaTE — zero-shot TTS систему, способную генерировать естественную речь со смехом для любого говорящего на основе короткого аудиопромпта с точным контролем времени и выражения смеха. В частности, ELaTE использует аудиопромпт для имитации характеристик голоса, текстовый промпт для указания содержания генерируемой речи и входные данные для управления выражением смеха, которые могут быть либо временем начала и окончания смеха, либо дополнительным аудиопромптом, содержащим смех для имитации. Мы разрабатываем нашу модель на основе условного flow-matching подхода для zero-shot TTS и дорабатываем её с использованием фрейм-уровневого представления от детектора смеха в качестве дополнительного условия. С помощью простой схемы смешивания небольшого набора данных, обусловленных смехом, с крупномасштабными данными предварительного обучения, мы демонстрируем, что предварительно обученная zero-shot TTS модель может быть легко доработана для генерации естественного смеха с высокой степенью управляемости, без потери качества самой модели. В ходе оценок мы показываем, что ELaTE способна генерировать речь со смехом значительно более высокого качества и управляемости по сравнению с традиционными моделями. Демонстрационные примеры доступны по ссылке: https://aka.ms/elate/.

AutoMathText: Автономный отбор данных с использованием языковых моделей для математических текстов
AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

Feb 12

ByYifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao

Для повышения уровня математического мышления языковых моделей посредством непрерывного предварительного обучения мы представляем новую стратегию, которая использует базовые языковые модели для автономного выбора данных. В отличие от традиционного тонкого настройки с учителем или обученных классификаторов с аннотированными человеком данными, наш подход применяет мета-запрашиваемые языковые модели в качестве верификаторов с нулевым обучением для автономной оценки и выбора высококачественного математического контента, и мы выпускаем курированный открытый набор данных AutoMathText, содержащий более 200 ГБ данных. Чтобы продемонстрировать эффективность нашего метода, мы непрерывно предварительно обучали языковую модель Mistral с 7 миллиардами параметров на наборе данных AutoMathText, достигнув значительных улучшений в производительности на наборе данных MATH при сокращении количества токенов на порядки по сравнению с предыдущими работами по непрерывному предварительному обучению. Наш метод демонстрирует двукратное увеличение эффективности использования токенов при предварительном обучении по сравнению с базовыми подходами, подчеркивая потенциал нашего метода в улучшении математических способностей моделей. Набор данных AutoMathText доступен по адресу https://huggingface.co/datasets/math-ai/AutoMathText. Код доступен по адресу https://github.com/yifanzhang-pro/AutoMathText.

Призматические VLM: исследование пространства проектирования визуально-обусловленных языковых моделей
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

Feb 12

BySiddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh

Визуально-обусловленные языковые модели (VLMs) находят всё более широкое применение в таких задачах, как визуальный диалог, понимание сцен и планирование задач в робототехнике; это распространение стимулировало появление множества новых моделей, таких как LLaVa, InstructBLIP и PaLI-3. Несмотря на обилие новых релизов, ключевые решения, связанные с предобработкой изображений, архитектурой и оптимизацией, остаются недостаточно изученными, что затрудняет понимание факторов, влияющих на производительность моделей. Эта проблема усугубляется отсутствием объективных и согласованных методов оценки. Чтобы устранить эти пробелы, мы, во-первых, разработали набор стандартизированных тестов, охватывающих визуальное ответы на вопросы, локализацию объектов на основе текста и специализированные наборы данных, которые исследуют такие свойства, как галлюцинации; эти тесты предоставляют калиброванное и детализированное понимание возможностей VLM. Во-вторых, мы тщательно исследуем VLMs по ключевым аспектам проектирования, включая предобученные визуальные представления и анализ компромиссов между использованием базовых и инструктивно-настроенных языковых моделей, среди прочего. Наш анализ дополняется тремя ресурсными вкладами: (1) унифицированной системой для оценки VLMs, (2) оптимизированным и гибким кодом для обучения VLMs и (3) контрольными точками для всех моделей, включая семейство VLMs масштаба 7-13B, которые строго превосходят InstructBLIP и LLaVa v1.5, являющиеся передовыми решениями среди открытых VLMs.

Масштабные законы для детализированных смесей экспертов
Scaling Laws for Fine-Grained Mixture of Experts

Feb 12

ByJakub Krajewski, Jan Ludziejewski, Kamil Adamczewski, Maciej Pióro, Michał Krutul, Szymon Antoniak, Kamil Ciebiera, Krystian Król, Tomasz Odrzygóźdź, Piotr Sankowski, Marek Cygan, Sebastian Jaszczur

Модели типа "Смесь экспертов" (Mixture of Experts, MoE) стали основным решением для снижения вычислительных затрат крупных языковых моделей. В данной работе мы анализируем их свойства масштабирования, учитывая расширенный набор переменных. В частности, мы вводим новый гиперпараметр — гранулярность, регулировка которого позволяет точно контролировать размер экспертов. На основе этого мы устанавливаем законы масштабирования для детализированных моделей MoE, учитывая количество токенов для обучения, размер модели и гранулярность. Используя эти законы, мы определяем оптимальную конфигурацию обучения для заданного вычислительного бюджета. Наши результаты не только показывают, что модели MoE стабильно превосходят плотные трансформеры, но и подчеркивают, что разрыв в эффективности между плотными моделями и моделями MoE увеличивается по мере масштабирования размера модели и бюджета на обучение. Кроме того, мы демонстрируем, что распространенная практика установки размера экспертов в MoE в соответствии с размером прямого слоя не является оптимальной практически для любого вычислительного бюджета.

ODIN: Разделение вознаграждений снижает риск взлома в RLHF
ODIN: Disentangled Reward Mitigates Hacking in RLHF

Feb 11

ByLichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen, Tianyi Zhou, Tom Goldstein, Heng Huang, Mohammad Shoeybi, Bryan Catanzaro

В данной работе мы исследуем проблему манипуляции с наградой, связанной с длиной ответа, — вызов, возникающий при обучении с подкреплением на основе обратной связи от человека (RLHF) для крупных языковых моделей (LLM). Хорошо структурированный, многословный, но менее полезный ответ от LLM часто может обмануть как сами модели, так и даже человеческих оценщиков, чтобы получить высокие баллы. Та же проблема наблюдается и для некоторых моделей награды в RL. Чтобы решить эти проблемы как в обучении, так и в оценке, мы разрабатываем более надежный протокол оценки для сравнения различных конфигураций обучения, который анализирует компромисс между оценкой LLM и длиной ответа, полученной при варьировании гиперпараметров обучения. На основе этой оценки мы проводим масштабные исследования, результаты которых проливают свет на эффективность гиперпараметров и приемов, используемых в RL для смягчения смещения по длине. Мы также предлагаем улучшить модель награды путем совместного обучения двух линейных голов на общих представлениях признаков для предсказания наград: одна обучается коррелировать с длиной, а другая — декоррелировать с длиной, чтобы больше фокусироваться на фактическом содержании. Затем мы исключаем голову, связанную с длиной, в RL, чтобы предотвратить манипуляцию с наградой по длине. Эксперименты показывают, что наш подход практически устраняет корреляцию награды с длиной и значительно улучшает полученную политику.

LiRank: Промышленные модели ранжирования крупного масштаба в LinkedIn
LiRank: Industrial Large Scale Ranking Models at LinkedIn

Feb 10

ByFedor Borisyuk, Mingzhou Zhou, Qingquan Song, Siyu Zhu, Birjodh Tiwana, Ganesh Parameswaran, Siddharth Dangi, Lars Hertel, Qiang Xiao, Xiaochen Hou, Yunbo Ouyang, Aman Gupta, Sheallika Singh, Dan Liu, Hailing Cheng, Lei Le, Jonathan Hung, Sathiya Keerthi, Ruoyan Wang, Fengyu Zhang, Mohit Kothari, Chen Zhu, Daqi Sun, Yun Dai, Xun Luan, Sirou Zhu, Zhiwei Wang, Neil Daftary, Qianqi Shen, Chengming Jiang, Haichao Wei, Maneesh Varshney, Amol Ghoting, Souvik Ghosh

Мы представляем LiRank, масштабируемую систему ранжирования в LinkedIn, которая внедряет в производство передовые архитектуры моделей и методы оптимизации. Мы раскрываем несколько улучшений в моделировании, включая Residual DCN, который добавляет механизмы внимания и остаточные соединения к известной архитектуре DCNv2. Мы делимся инсайтами по комбинированию и настройке современных архитектур для создания унифицированной модели, включая Dense Gating, Transformers и Residual DCN. Также мы предлагаем новые методы калибровки и описываем, как мы внедрили в производство методы исследования/эксплуатации на основе глубокого обучения. Для обеспечения эффективного обслуживания крупных моделей ранжирования в производственных условиях мы подробно рассказываем, как обучать и сжимать модели с использованием квантования и сжатия словаря. Мы предоставляем детали о настройке развертывания для масштабных сценариев использования, таких как ранжирование ленты, рекомендации вакансий и прогнозирование кликабельности рекламы (CTR). Мы обобщаем наши выводы из различных A/B-тестов, выделяя наиболее эффективные технические подходы. Эти идеи способствовали улучшению ключевых метрик во всех направлениях в LinkedIn: +0,5% сессий пользователей в ленте, +1,76% квалифицированных откликов на вакансии в поиске и рекомендациях, а также +4,3% для CTR рекламы. Мы надеемся, что эта работа предоставит практические инсайты и решения для специалистов, заинтересованных в использовании масштабируемых систем глубокого ранжирования.

GALA3D: К генерации сложных 3D-сцен из текста с использованием генеративного гауссова сплайнинга, управляемого компоновкой
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

Feb 11

ByXiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang

Мы представляем GALA3D — генеративные 3D-гауссовы распределения с управлением на основе компоновки (LAyout-guided control) для эффективного композиционного преобразования текста в 3D. Сначала мы используем большие языковые модели (LLM) для создания начальной компоновки и вводим представление 3D-гауссовых распределений, управляемое компоновкой, для генерации 3D-контента с адаптивными геометрическими ограничениями. Затем мы предлагаем механизм оптимизации композиции объектов и сцены с использованием условной диффузии, который совместно генерирует реалистичные 3D-сцены с согласованной геометрией, текстурой, масштабом и точными взаимодействиями между множеством объектов, одновременно корректируя грубые априорные данные о компоновке, извлеченные из LLM, для их согласования с генерируемой сценой. Эксперименты показывают, что GALA3D представляет собой удобный в использовании, сквозной фреймворк для передовой генерации 3D-контента на уровне сцены и контролируемого редактирования, обеспечивая при этом высокую точность объектов внутри сцены. Исходные коды и модели будут доступны по адресу https://gala3d.github.io/.

Тонкая настройка "наступая на ноги": масштабирование самосовмещения больших языковых моделей через бутстреппинг
Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping

Feb 12

ByHaoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, Xueqian Wang, Peilin Zhao

Самостоятельное выравнивание (self-alignment) является эффективным способом снижения затрат на аннотирование данных человеком при сохранении высокой производительности модели. Однако большинство современных методов выполняют сбор данных и обучение за один этап, что может упускать из виду постоянно улучшающиеся способности самонастраиваемых моделей. Это порождает ключевой вопрос: что, если мы применим многократное бутстрэппинговое самонастроение? Улучшает ли эта стратегия производительность модели или приводит к быстрой деградации? В данной статье мы проводим новаторское исследование влияния бутстрэппингового самонастроения на крупные языковые модели. Наши результаты показывают, что бутстрэппинговое самонастроение значительно превосходит одноэтапный подход, обеспечивая разнообразие данных благодаря обучению в контексте. Для дальнейшего раскрытия потенциала бутстрэппинга мы исследуем и корректируем порядок обучения данных, что приводит к улучшению производительности модели. На основе этих выводов мы предлагаем метод Step-On-Feet Tuning (SOFT), который использует постоянно улучшающуюся способность модели к обучению с малым количеством примеров (few-shot) для повышения производительности в задачах с нулевым или одним примером (zero/one-shot). На основе стратегии обучения от простого к сложному мы предлагаем SOFT+, который дополнительно повышает эффективность самонастроения. Наши эксперименты демонстрируют эффективность SOFT (SOFT+) в различных задачах классификации и генерации, подчеркивая потенциал бутстрэппингового самонастроения для постоянного улучшения производительности моделей.

Улучшение политики с использованием моделей языковой обратной связи
Policy Improvement using Language Feedback Models

Feb 12

ByVictor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté

Мы представляем Модели Языковой Обратной Связи (Language Feedback Models, LFMs), которые идентифицируют желательное поведение — действия, способствующие выполнению задач, указанных в инструкции, — для обучения с подражанием в следовании инструкциям. Для обучения LFMs мы получаем обратную связь от Больших Языковых Моделей (Large Language Models, LLMs) на основе визуальных траекторий, переведенных в языковые описания. Во-первых, используя LFMs для идентификации желательного поведения для подражания, мы улучшаем процент выполнения задач по сравнению с сильными базовыми моделями поведенческого клонирования в трех различных средах языкового заземления (Touchdown, ScienceWorld и ALFWorld). Во-вторых, LFMs превосходят использование LLMs в качестве экспертов для прямого предсказания действий при контроле за количеством выходных токенов LLM. В-третьих, LFMs демонстрируют обобщение на незнакомые среды, улучшая процент выполнения задач на 3,5–12,0% после одного раунда адаптации. Наконец, LFM может быть модифицирована для предоставления интерпретируемой человеком обратной связи без потери производительности, что позволяет проверять желательное поведение для обучения с подражанием.

PIVOT: Итеративное визуальное подсказывание извлекает полезные знания для моделей визуального языка
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

Feb 12