HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

18 papers found

OpenCodeInterpreter: Интеграция генерации кода с выполнением и уточнением
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement

Feb 22

ByTianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, Xiang Yue

Внедрение крупных языковых моделей значительно продвинуло генерацию кода. Однако открытые модели часто уступают в возможностях выполнения и итеративного уточнения кода по сравнению с продвинутыми системами, такими как GPT-4 Code Interpreter. Для решения этой проблемы мы представляем OpenCodeInterpreter — семейство открытых систем для генерации, выполнения и итеративного уточнения кода. Поддерживаемый набором данных Code-Feedback, содержащим 68 тысяч многоходовых взаимодействий, OpenCodeInterpreter интегрирует выполнение кода и обратную связь от человека для динамического уточнения кода. Наше всестороннее тестирование OpenCodeInterpreter на ключевых бенчмарках, таких как HumanEval, MBPP и их улучшенных версиях из EvalPlus, демонстрирует его выдающуюся производительность. В частности, OpenCodeInterpreter-33B достигает точности 83,2 (76,4) на средних (и улучшенных) версиях HumanEval и MBPP, что близко к результату GPT-4 — 84,2 (76,2), а с синтезированной обратной связью от GPT-4 этот показатель повышается до 91,6 (84,6). OpenCodeInterpreter сокращает разрыв между открытыми моделями генерации кода и проприетарными системами, такими как GPT-4 Code Interpreter.

За пределами A: Улучшенное планирование с помощью трансформеров через динамику поиска Бутстреппинг
Beyond A: Better Planning with Transformers via Search Dynamics Bootstrapping

Feb 21

ByLucas Lehnert, Sainbayar Sukhbaatar, Paul Mcvay, Michael Rabbat, Yuandong Tian

Хотя архитектуры Transformer позволили достичь значительного прогресса в различных прикладных областях, они всё ещё отстают от традиционных символических планировщиков в решении сложных задач принятия решений. В данной работе мы демонстрируем, как обучить Transformer для решения сложных задач планирования, и представляем Searchformer — модель Transformer, которая оптимально решает ранее не встречавшиеся головоломки Sokoban в 93,7% случаев, при этом используя до 26,8% меньше шагов поиска по сравнению со стандартным алгоритмом A^*. Searchformer представляет собой модель Transformer с архитектурой "кодировщик-декодировщик", обученную предсказывать динамику поиска алгоритма A^*. Затем эта модель дообучается с использованием экспертных итераций, чтобы выполнять меньше шагов поиска, чем A^*, при этом всё ещё генерируя оптимальный план. В нашем методе обучения динамика поиска A^* выражается в виде последовательности токенов, описывающей, когда состояния задачи добавляются и удаляются из дерева поиска в процессе символического планирования. В наших исследованиях по навигации в лабиринтах мы обнаружили, что Searchformer значительно превосходит базовые модели, которые предсказывают оптимальный план напрямую, при этом размер модели в 5-10 раз меньше, а объём обучающих данных — в 10 раз меньше. Мы также показываем, как Searchformer масштабируется на более крупные и сложные задачи принятия решений, такие как Sokoban, с улучшенным процентом решённых задач и сокращённой динамикой поиска.

PALO: Полиглотная крупная мультимодальная модель для 5 миллиардов человек
PALO: A Polyglot Large Multimodal Model for 5B People

Feb 22

ByMuhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan

В стремлении к созданию более инклюзивных моделей обработки зрения и языка (Vision-Language Models, VLMs), данное исследование представляет крупную многоязычную мультимодальную модель под названием Palo. Palo предлагает возможности визуального рассуждения на 10 основных языках, включая английский, китайский, хинди, испанский, французский, арабский, бенгальский, русский, урду и японский, которые охватывают в общей сложности около 5 миллиардов человек (65% мирового населения). Наш подход включает полуавтоматический метод перевода для адаптации мультимодального набора инструкций с английского на целевые языки с использованием тонко настроенной крупной языковой модели, что обеспечивает высокую лингвистическую точность при минимальных ручных усилиях, способствуя масштабируемости. Включение разнообразных наборов инструкций помогает повысить общую производительность на множестве языков, особенно на тех, которые недостаточно представлены, таких как хинди, арабский, бенгальский и урду. Полученные модели обучаются на трех масштабах (1,7 млрд, 7 млрд и 13 млрд параметров), демонстрируя обобщаемость и масштабируемость, при этом наблюдаются значительные улучшения по сравнению с сильными базовыми моделями. Мы также предлагаем первый многоязычный мультимодальный бенчмарк для будущих подходов, позволяющий оценивать их способности к визуально-языковому рассуждению на разных языках. Код: https://github.com/mbzuai-oryx/PALO.

TinyLLaVA: Фреймворк для компактных крупномасштабных мультимодальных моделей
TinyLLaVA: A Framework of Small-scale Large Multimodal Models

Feb 22

ByBaichuan Zhou, Ying Hu, Xi Weng, Junlong Jia, Jie Luo, Xien Liu, Ji Wu, Lei Huang

Мы представляем фреймворк TinyLLaVA, который предлагает унифицированный подход к проектированию и анализу небольших крупномасштабных мультимодальных моделей (LMM). Мы эмпирически исследуем влияние различных визуальных кодировщиков, соединительных модулей, языковых моделей, обучающих данных и методик обучения. Наши обширные эксперименты показали, что более качественные данные в сочетании с улучшенными методиками обучения позволяют меньшим LMM стабильно достигать результатов, сопоставимых с более крупными моделями. В рамках нашего фреймворка мы обучаем семейство небольших LMM. Наша лучшая модель, TinyLLaVA-3.1B, демонстрирует превосходную общую производительность по сравнению с существующими 7B моделями, такими как LLaVA-1.5 и Qwen-VL. Мы надеемся, что наши результаты послужат базовыми ориентирами для будущих исследований в области масштабирования данных, настройки обучения и выбора моделей. Веса и коды нашей модели будут опубликованы в открытом доступе.

Токенизация изображений на уровне субобъектов
Subobject-level Image Tokenization

Feb 22

ByDelong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung

Трансформерные модели для обработки изображений обычно токенизируют изображения на фиксированные квадратные патчи в качестве входных единиц, что не учитывает адаптивность к содержанию изображения и игнорирует присущую структуру группировки пикселей. Вдохновленные субсловной токенизацией, широко применяемой в языковых моделях, мы предлагаем токенизатор изображений на уровне субобъектов, где субобъекты представлены семантически значимыми сегментами изображений, полученными с помощью моделей сегментации (например, моделей типа "segment anything"). Для реализации системы обучения, основанной на токенизации субобъектов, мы сначала представили автоэнкодер последовательностей (SeqAE) для сжатия сегментов субобъектов различного размера и формы в компактные векторные представления, а затем передали эти представления в крупную языковую модель для обучения на стыке зрения и языка. Экспериментальные результаты показали, что токенизация на уровне субобъектов значительно способствует эффективному обучению переводу изображений в описания объектов и их атрибутов по сравнению с традиционной токенизацией на уровне патчей. Коды и модели будут опубликованы на https://github.com/ChenDelong1999/subobjects.

AgentScope: Гибкая, но Надежная Платформа для Мультиагентных Систем
AgentScope: A Flexible yet Robust Multi-Agent Platform

Feb 21

ByDawei Gao, Zitao Li, Weirui Kuang, Xuchen Pan, Daoyuan Chen, Zhijian Ma, Bingchen Qian, Liuyi Yao, Lin Zhu, Chen Cheng, Hongzhu Shi, Yaliang Li, Bolin Ding, Jingren Zhou

С быстрым развитием крупных языковых моделей (LLM) был достигнут значительный прогресс в области многоагентных приложений. Однако сложности в координации взаимодействия агентов и нестабильная производительность LLM представляют собой серьезные вызовы при разработке надежных и эффективных многоагентных приложений. Для решения этих задач мы предлагаем AgentScope — ориентированную на разработчиков многоагентную платформу, в основе которой лежит механизм обмена сообщениями. В сочетании с богатым набором синтаксических инструментов, встроенных ресурсов и удобных интерфейсов наш механизм коммуникации значительно снижает барьеры как для разработки, так и для понимания. Для создания устойчивых и гибких многоагентных приложений AgentScope предоставляет как встроенные, так и настраиваемые механизмы отказоустойчивости, а также системную поддержку для генерации, хранения и передачи мультимодальных данных. Кроме того, мы разработали распределенную архитектуру на основе акторов, которая позволяет легко переключаться между локальным и распределенным развертыванием и автоматически оптимизировать параллелизм без дополнительных усилий. Благодаря этим функциям AgentScope дает разработчикам возможность создавать приложения, полностью раскрывающие потенциал интеллектуальных агентов. Мы выпустили AgentScope на https://github.com/modelscope/agentscope и надеемся, что платформа привлечет более широкое участие и инновации в этой быстро развивающейся области.

OmniPred: Языковые модели как универсальные регрессоры
OmniPred: Language Models as Universal Regressors

Feb 22

ByXingyou Song, Oscar Li, Chansoo Lee, Bangding, Yang, Daiyi Peng, Sagi Perel, Yutian Chen

В широком спектре экспериментального проектирования регрессия была мощным инструментом для точного прогнозирования метрик системы или модели на основе заданного набора параметров, однако традиционно ограничивалась методами, применимыми только к конкретным задачам. В данной статье мы представляем OmniPred — фреймворк для обучения языковых моделей в качестве универсальных сквозных регрессоров на основе данных (x, y) из разнообразных реальных экспериментов. Используя данные из Google Vizier, одной из крупнейших в мире баз данных для черного ящика оптимизации, наши масштабные эксперименты демонстрируют, что языковые модели способны выполнять очень точную численную регрессию, используя только текстовые представления математических параметров и значений, и, если им предоставляется возможность обучаться на множестве задач, могут значительно превосходить традиционные модели регрессии.

T-Stitch: Ускорение выборки в предобученных диффузионных моделях с помощью сшивания траекторий
T-Stitch: Accelerating Sampling in Pre-Trained Diffusion Models with Trajectory Stitching

Feb 21

ByZizheng Pan, Bohan Zhuang, De-An Huang, Weili Nie, Zhiding Yu, Chaowei Xiao, Jianfei Cai, Anima Anandkumar

Выборка из диффузионных вероятностных моделей (DPM) часто требует значительных вычислительных ресурсов для генерации высококачественных изображений и обычно включает множество шагов с использованием крупной модели. В данной работе мы представляем метод Trajectory Stitching T-Stitch — простой, но эффективный способ повышения эффективности выборки с минимальной или нулевой деградацией качества генерации. Вместо использования исключительно крупной DPM на всем протяжении траектории выборки, T-Stitch сначала задействует меньшую DPM на начальных этапах в качестве экономичной замены более крупной модели, а затем переключается на крупную DPM на более поздних стадиях. Наше ключевое наблюдение заключается в том, что различные диффузионные модели обучаются схожим представлениям при одинаковом распределении обучающих данных, а меньшие модели способны генерировать качественные глобальные структуры на ранних этапах. Многочисленные эксперименты показывают, что T-Stitch не требует дополнительного обучения, применим к различным архитектурам и дополняет большинство существующих методов быстрой выборки, обеспечивая гибкий баланс между скоростью и качеством. Например, на модели DiT-XL 40% начальных временных шагов могут быть безопасно заменены на 10 раз более быструю DiT-S без потери производительности при генерации изображений на основе классов в ImageNet. Мы также демонстрируем, что наш метод может использоваться как встраиваемый подход не только для ускорения популярных предобученных моделей Stable Diffusion (SD), но и для улучшения соответствия запросам в стилизованных моделях SD из публичного модельного зоопарка. Код доступен по адресу: https://github.com/NVlabs/T-Stitch.

LexC-Gen: Генерация данных для языков с крайне ограниченными ресурсами с использованием крупных языковых моделей и двуязычных лексиконов
LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons

Feb 21

ByZheng-Xin Yong, Cristina Menghini, Stephen H. Bach

Недостаток данных в языках с ограниченными ресурсами можно решить с помощью пословного перевода размеченных данных задач из языков с богатыми ресурсами, используя двуязычные словари. Однако двуязычные словари часто имеют ограниченное лексическое совпадение с данными задач, что приводит к низкому охвату перевода и неэффективному использованию словарей. Мы предлагаем метод генерации данных, обусловленной словарями (LexC-Gen), который позволяет масштабируемо генерировать данные для задач классификации на языках с ограниченными ресурсами. В частности, LexC-Gen сначала использует слова из двуязычных словарей для создания совместимых с ними данных задач на языке с богатыми ресурсами, а затем переводит их на язык с ограниченными ресурсами с помощью пословного перевода. На 17 языках с крайне ограниченными ресурсами данные, сгенерированные с помощью LexC-Gen, конкурируют с эталонными данными, переведенными экспертами, и показывают в среднем улучшение на 5,6 и 8,9 баллов по сравнению с существующими методами пословного перевода на основе словарей в задачах анализа тональности и классификации тем соответственно. Мы показываем, что обусловленность двуязычными словарями является ключевым компонентом LexC-Gen. LexC-Gen также практичен — для масштабируемой генерации данных требуется всего один GPU. Метод хорошо работает с открытыми языковыми моделями, а его стоимость составляет одну пятую от стоимости генерации многоязычных данных на основе GPT-4.

Инструмент оценки Copilot: Тестирование программного обеспечения с использованием LLM-направленного программирования
Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming

Feb 22

ByAnisha Agarwal, Aaron Chan, Shubham Chandel, Jinu Jang, Shaun Miller, Roshanak Zilouchian Moghaddam, Yevhen Mohylevskyy, Neel Sundaresan, Michele Tufano

Интеграция крупных языковых моделей (LLMs) в среды разработки (IDEs) стала ключевым направлением в современной разработке программного обеспечения. LLMs, такие как OpenAI GPT-3.5/4 и Code Llama, обладают потенциалом значительно повысить продуктивность разработчиков, выступая в роли интеллектуальных ассистентов для программирования на основе чата. Однако использование LLMs "из коробки" вряд ли будет оптимальным для любого конкретного сценария. Вместо этого каждая система требует настройки LLM на основе набора эвристик для обеспечения наилучшей производительности. В данной статье мы представляем оценочный инструментарий Copilot: набор данных и инструментов для оценки взаимодействий, управляемых LLM в IDE, охватывающих различные сценарии программирования и языки. Мы предлагаем наши метрики как более надежную и информационно насыщенную оценку по сравнению с предыдущими системами оценки, считающимися передовыми. Мы разрабатываем и вычисляем как статические, так и основанные на выполнении метрики успеха для сценариев, охватывающих широкий спектр задач разработчиков, включая генерацию кода из естественного языка (generate), генерацию документации из кода (doc), генерацию тестовых случаев (test), исправление ошибок (fix), а также понимание рабочего пространства и разрешение запросов (workspace). Эти метрики успеха предназначены для оценки производительности LLM в рамках конкретной IDE и её соответствующего пространства параметров. Наши выводы, полученные в результате оценки трех распространенных LLM с использованием этих метрик, могут способствовать разработке и валидации будущих сценариев в IDE, управляемых LLM.

Масштабирование проверок с использованием больших языковых моделей для модерации контента в Google Ads
Scaling Up LLM Reviews for Google Ads Content Moderation

Feb 7

ByWei Qiao, Tushar Dogra, Otilia Stretcu, Yu-Han Lyu, Tiantian Fang, Dongjin Kwon, Chun-Ta Lu, Enming Luo, Yuan Wang, Chih-Chun Chia, Ariel Fuxman, Fangzhou Wang, Ranjay Krishna, Mehmet Tek

Крупные языковые модели (LLM) являются мощным инструментом для модерации контента, однако их затраты на выполнение выводов и задержки делают их непрактичными для повседневного использования на больших наборах данных, таких как репозиторий Google Ads. В данном исследовании предлагается метод масштабирования проверок с использованием LLM для модерации контента в Google Ads. Сначала мы используем эвристики для отбора кандидатов путем фильтрации и удаления дубликатов, а также создаем кластеры объявлений, для каждого из которых выбираем одно репрезентативное объявление. Затем мы используем LLM для проверки только репрезентативных объявлений. Наконец, мы распространяем решения LLM для репрезентативных объявлений на их кластеры. Этот метод сокращает количество проверок более чем на 3 порядка величины, при этом достигая двукратного улучшения полноты по сравнению с базовой моделью без использования LLM. Успех данного подхода в значительной степени зависит от представлений, используемых при кластеризации и распространении меток; мы обнаружили, что кросс-модальные представления сходства дают лучшие результаты, чем уни-модальные представления.

GeneOH Diffusion: В сторону обобщаемого шумоподавления взаимодействий "рука-объект" через диффузионное шумоподавление
GeneOH Diffusion: Towards Generalizable Hand-Object Interaction Denoising via Denoising Diffusion

Feb 22

ByXueyi Liu, Li Yi

В данной работе мы решаем сложную задачу устранения шума во взаимодействиях руки и объекта (Hand-Object Interaction, HOI). Имея ошибочную последовательность взаимодействий, цель состоит в уточнении некорректной траектории руки для удаления артефактов взаимодействия и создания визуально реалистичной последовательности. Эта задача включает сложные виды шума взаимодействия, такие как неестественные позы руки и некорректные отношения между рукой и объектом, а также требует устойчивой обобщаемости к новым взаимодействиям и разнообразным типам шума. Мы решаем эти проблемы с помощью нового подхода, GeneOH Diffusion, который включает два ключевых элемента: инновационное контактно-ориентированное представление HOI под названием GeneOH и новую схему устранения шума, способную обобщаться на различные домены. Контактно-ориентированное представление GeneOH информативно параметризует процесс HOI, способствуя улучшенной обобщаемости в различных сценариях взаимодействий. Новая схема устранения шума состоит из канонической модели, обученной проецировать зашумленные данные из "отбеленного" пространства шума на многообразие чистых данных, и стратегии "устранения шума через диффузию", которая может обрабатывать входные траектории с различными типами шума, сначала диффундируя их для выравнивания с "отбеленным" пространством шума, а затем очищая с помощью канонической модели. Обширные эксперименты на четырех бенчмарках с существенными вариациями доменов демонстрируют превосходную эффективность нашего метода. GeneOH Diffusion также показывает перспективность для различных прикладных задач. Сайт проекта: https://meowuu7.github.io/GeneOH-Diffusion/.

Консолидация характеристик внимания для редактирования многовидовых изображений
Consolidating Attention Features for Multi-view Image Editing

Feb 22

ByOr Patashnik, Rinon Gal, Daniel Cohen-Or, Jun-Yan Zhu, Fernando De la Torre

Масштабные модели преобразования текста в изображения позволяют реализовать широкий спектр техник редактирования изображений с использованием текстовых запросов или даже пространственных управляющих элементов. Однако применение этих методов редактирования к многовидовым изображениям, изображающим одну сцену, приводит к результатам, не согласованным в 3D. В данной работе мы сосредоточимся на геометрических манипуляциях, основанных на пространственном управлении, и представим метод, который объединяет процесс редактирования для различных видов. Мы основываемся на двух ключевых идеях: (1) поддержание согласованных признаков на протяжении всего процесса генерации способствует достижению согласованности при многовидовом редактировании, и (2) запросы в слоях самовнимания значительно влияют на структуру изображения. Следовательно, мы предлагаем улучшить геометрическую согласованность отредактированных изображений, обеспечивая согласованность запросов. Для этого мы представляем QNeRF — нейронное поле излучения, обученное на внутренних признаках запросов отредактированных изображений. После обучения QNeRF может рендерить 3D-согласованные запросы, которые затем мягко внедряются обратно в слои самовнимания в процессе генерации, значительно улучшая многовидовую согласованность. Мы уточняем процесс с помощью прогрессивного итеративного метода, который лучше объединяет запросы на различных этапах диффузии. Мы сравниваем наш метод с рядом существующих техник и демонстрируем, что он позволяет достичь лучшей многовидовой согласованности и более высокой точности по отношению к исходной сцене. Эти преимущества позволяют нам обучать NeRF с меньшим количеством визуальных артефактов, которые лучше соответствуют целевой геометрии.

GaussianPro: 3D-сплаттинг с гауссовыми функциями и прогрессивным распространением
GaussianPro: 3D Gaussian Splatting with Progressive Propagation

Feb 22

ByKai Cheng, Xiaoxiao Long, Kaizhi Yang, Yao Yao, Wei Yin, Yuexin Ma, Wenping Wang, Xuejin Chen

Появление метода 3D Gaussian Splatting (3DGS) недавно произвело революцию в области нейронного рендеринга, обеспечивая высококачественную визуализацию в режиме реального времени. Однако 3DGS сильно зависит от инициализированного облака точек, созданного с помощью методов Structure-from-Motion (SfM). При работе с крупномасштабными сценами, которые неизбежно содержат поверхности с низкой текстурой, методы SfM часто не могут сгенерировать достаточное количество точек на этих поверхностях и не обеспечивают хорошей инициализации для 3DGS. В результате 3DGS сталкивается с трудностями оптимизации и низким качеством рендеринга. В данной статье, вдохновленные классическими методами многовидовой стереоскопии (MVS), мы предлагаем GaussianPro — новый метод, который применяет прогрессивную стратегию распространения для управления уплотнением 3D-гауссов. В отличие от простых стратегий разделения и клонирования, используемых в 3DGS, наш метод использует априорные знания о существующих реконструированных геометриях сцены и техники сопоставления патчей для создания новых гауссов с точными позициями и ориентациями. Эксперименты на крупномасштабных и небольших сценах подтверждают эффективность нашего метода, где он значительно превосходит 3DGS на наборе данных Waymo, демонстрируя улучшение на 1.15 дБ по показателю PSNR.

MVD^2: Эффективная многовидовая 3D-реконструкция для многовидовой диффузии
MVD^2: Efficient Multiview 3D Reconstruction for Multiview Diffusion

Feb 22

ByXin-Yang Zheng, Hao Pan, Yu-Xiao Guo, Xin Tong, Yang Liu

Как перспективная технология генерации 3D, мультивью диффузия (MVD) привлекает значительное внимание благодаря своим преимуществам в области обобщаемости, качества и эффективности. Путем дообучения предварительно обученных крупных моделей диффузии изображений на 3D данных, методы MVD сначала генерируют несколько видов 3D объекта на основе изображения или текстового запроса, а затем восстанавливают 3D формы с помощью мультивью 3D реконструкции. Однако разреженные виды и несогласованные детали в сгенерированных изображениях делают 3D реконструкцию сложной задачей. Мы представляем MVD^2, эффективный метод 3D реконструкции для изображений мультивью диффузии (MVD). MVD^2 агрегирует признаки изображений в 3D объем признаков с помощью проекции и свертки, а затем декодирует объемные признаки в 3D сетку. Мы обучаем MVD^2 на коллекциях 3D форм и изображениях MVD, сгенерированных на основе визуализированных видов 3D форм. Для устранения расхождений между сгенерированными мультивью изображениями и эталонными видами 3D форм, мы разработали простую, но эффективную схему обучения, зависящую от вида. MVD^2 улучшает качество 3D генерации MVD, являясь быстрым и устойчивым к различным методам MVD. После обучения он может эффективно декодировать 3D сетки из мультивью изображений менее чем за одну секунду. Мы обучаем MVD^2 на данных Zero-123++ и наборе данных ObjectVerse-LVIS 3D, демонстрируя его превосходную производительность в генерации 3D моделей из мультивью изображений, созданных различными методами MVD, используя как синтетические, так и реальные изображения в качестве запросов.

CyberDemo: Расширение возможностей симулированных демонстраций человека для реализации ловких манипуляций в реальном мире
CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous Manipulation

Feb 22

ByJun Wang, Yuzhe Qin, Kaiming Kuang, Yigit Korkmaz, Akhilan Gurumoorthy, Hao Su, Xiaolong Wang

Мы представляем CyberDemo — новый подход к обучению роботов методом имитации, который использует симулированные демонстрации человека для выполнения задач в реальном мире. Благодаря применению расширенной аугментации данных в симулированной среде, CyberDemo превосходит традиционные методы, основанные на реальных демонстрациях, при переносе в реальный мир, успешно справляясь с разнообразными физическими и визуальными условиями. Несмотря на доступность и удобство сбора данных, CyberDemo демонстрирует более высокие показатели успешности выполнения задач по сравнению с базовыми методами и проявляет обобщаемость при работе с ранее неизвестными объектами. Например, он способен вращать новые тетра- и пента-клапаны, несмотря на то, что демонстрации человека включали только три-клапаны. Наше исследование показывает значительный потенциал симулированных демонстраций человека для выполнения задач ловкого манипулирования в реальном мире. Подробности можно найти на https://cyber-demo.github.io.

Линейные трансформеры являются универсальными моделями для обучения в контексте.
Linear Transformers are Versatile In-Context Learners

Feb 21

ByMax Vladymyrov, Johannes von Oswald, Mark Sandler, Rong Ge

Недавние исследования показали, что трансформеры, в частности модели с линейным вниманием, неявно выполняют алгоритмы, подобные градиентному спуску, на данных, предоставленных в контексте, во время их прямого прохода. Однако их способность справляться с более сложными задачами остается неисследованной. В данной работе мы доказываем, что любой линейный трансформер поддерживает неявную линейную модель и может интерпретироваться как выполняющий вариант предобусловленного градиентного спуска. Мы также исследуем использование линейных трансформеров в сложном сценарии, где обучающие данные искажены различными уровнями шума. Примечательно, что мы демонстрируем, что для этой задачи линейные трансформеры обнаруживают сложный и высокоэффективный алгоритм оптимизации, превосходящий или сопоставимый по производительности со многими разумными базовыми подходами. Мы реконструируем этот алгоритм и показываем, что он представляет собой новый подход, включающий импульс и адаптивное масштабирование в зависимости от уровня шума. Наши результаты показывают, что даже линейные трансформеры обладают удивительной способностью обнаруживать сложные стратегии оптимизации.

BeTAIL: Поведенческий трансформер для обучения с подкреплением через состязательное имитационное обучение на основе игрового процесса в гоночных играх
BeTAIL: Behavior Transformer Adversarial Imitation Learning from Human Racing Gameplay

Feb 22

ByCatherine Weaver, Chen Tang, Ce Hao, Kenta Kawamoto, Masayoshi Tomizuka, Wei Zhan

Обучение с подражанием позволяет изучать политику на основе демонстраций, не требуя ручного проектирования функций вознаграждения. Во многих робототехнических задачах, таких как автономные гонки, имитируемые политики должны моделировать сложную динамику среды и принятие решений человеком. Моделирование последовательностей высокоэффективно для захвата сложных паттернов последовательностей движений, но испытывает трудности с адаптацией к новым средам или сдвигам распределения, которые часто встречаются в реальных робототехнических задачах. В отличие от этого, состязательное обучение с подражанием (Adversarial Imitation Learning, AIL) может смягчить этот эффект, но сталкивается с проблемой неэффективности выборок и обработки сложных паттернов движений. Таким образом, мы предлагаем BeTAIL: Behavior Transformer Adversarial Imitation Learning, который объединяет политику Behavior Transformer (BeT), обученную на демонстрациях человека, с онлайн AIL. BeTAIL добавляет остаточную политику AIL к политике BeT для моделирования последовательного процесса принятия решений экспертами-людьми и коррекции состояний, выходящих за пределы распределения, или сдвигов в динамике среды. Мы тестируем BeTAIL на трех задачах с демонстрациями уровня экспертов реального геймплея людей в Gran Turismo Sport. Наша предложенная остаточная BeTAIL сокращает взаимодействия со средой и улучшает производительность и стабильность гонок, даже когда BeT предварительно обучена на трассах, отличных от тех, что используются в последующем обучении. Видео и код доступны по адресу: https://sites.google.com/berkeley.edu/BeTAIL/home.