Ежедневно отобранные исследовательские статьи по ИИ с переводами
Внедрение крупных языковых моделей значительно продвинуло генерацию кода. Однако открытые модели часто уступают в возможностях выполнения и итеративного уточнения кода по сравнению с продвинутыми системами, такими как GPT-4 Code Interpreter. Для решения этой проблемы мы представляем OpenCodeInterpreter — семейство открытых систем для генерации, выполнения и итеративного уточнения кода. Поддерживаемый набором данных Code-Feedback, содержащим 68 тысяч многоходовых взаимодействий, OpenCodeInterpreter интегрирует выполнение кода и обратную связь от человека для динамического уточнения кода. Наше всестороннее тестирование OpenCodeInterpreter на ключевых бенчмарках, таких как HumanEval, MBPP и их улучшенных версиях из EvalPlus, демонстрирует его выдающуюся производительность. В частности, OpenCodeInterpreter-33B достигает точности 83,2 (76,4) на средних (и улучшенных) версиях HumanEval и MBPP, что близко к результату GPT-4 — 84,2 (76,2), а с синтезированной обратной связью от GPT-4 этот показатель повышается до 91,6 (84,6). OpenCodeInterpreter сокращает разрыв между открытыми моделями генерации кода и проприетарными системами, такими как GPT-4 Code Interpreter.
Хотя архитектуры Transformer позволили достичь значительного прогресса в различных прикладных областях, они всё ещё отстают от традиционных символических планировщиков в решении сложных задач принятия решений. В данной работе мы демонстрируем, как обучить Transformer для решения сложных задач планирования, и представляем Searchformer — модель Transformer, которая оптимально решает ранее не встречавшиеся головоломки Sokoban в 93,7% случаев, при этом используя до 26,8% меньше шагов поиска по сравнению со стандартным алгоритмом A^*. Searchformer представляет собой модель Transformer с архитектурой "кодировщик-декодировщик", обученную предсказывать динамику поиска алгоритма A^*. Затем эта модель дообучается с использованием экспертных итераций, чтобы выполнять меньше шагов поиска, чем A^*, при этом всё ещё генерируя оптимальный план. В нашем методе обучения динамика поиска A^* выражается в виде последовательности токенов, описывающей, когда состояния задачи добавляются и удаляются из дерева поиска в процессе символического планирования. В наших исследованиях по навигации в лабиринтах мы обнаружили, что Searchformer значительно превосходит базовые модели, которые предсказывают оптимальный план напрямую, при этом размер модели в 5-10 раз меньше, а объём обучающих данных — в 10 раз меньше. Мы также показываем, как Searchformer масштабируется на более крупные и сложные задачи принятия решений, такие как Sokoban, с улучшенным процентом решённых задач и сокращённой динамикой поиска.
В стремлении к созданию более инклюзивных моделей обработки зрения и языка (Vision-Language Models, VLMs), данное исследование представляет крупную многоязычную мультимодальную модель под названием Palo. Palo предлагает возможности визуального рассуждения на 10 основных языках, включая английский, китайский, хинди, испанский, французский, арабский, бенгальский, русский, урду и японский, которые охватывают в общей сложности около 5 миллиардов человек (65% мирового населения). Наш подход включает полуавтоматический метод перевода для адаптации мультимодального набора инструкций с английского на целевые языки с использованием тонко настроенной крупной языковой модели, что обеспечивает высокую лингвистическую точность при минимальных ручных усилиях, способствуя масштабируемости. Включение разнообразных наборов инструкций помогает повысить общую производительность на множестве языков, особенно на тех, которые недостаточно представлены, таких как хинди, арабский, бенгальский и урду. Полученные модели обучаются на трех масштабах (1,7 млрд, 7 млрд и 13 млрд параметров), демонстрируя обобщаемость и масштабируемость, при этом наблюдаются значительные улучшения по сравнению с сильными базовыми моделями. Мы также предлагаем первый многоязычный мультимодальный бенчмарк для будущих подходов, позволяющий оценивать их способности к визуально-языковому рассуждению на разных языках. Код: https://github.com/mbzuai-oryx/PALO.
Мы представляем фреймворк TinyLLaVA, который предлагает унифицированный подход к проектированию и анализу небольших крупномасштабных мультимодальных моделей (LMM). Мы эмпирически исследуем влияние различных визуальных кодировщиков, соединительных модулей, языковых моделей, обучающих данных и методик обучения. Наши обширные эксперименты показали, что более качественные данные в сочетании с улучшенными методиками обучения позволяют меньшим LMM стабильно достигать результатов, сопоставимых с более крупными моделями. В рамках нашего фреймворка мы обучаем семейство небольших LMM. Наша лучшая модель, TinyLLaVA-3.1B, демонстрирует превосходную общую производительность по сравнению с существующими 7B моделями, такими как LLaVA-1.5 и Qwen-VL. Мы надеемся, что наши результаты послужат базовыми ориентирами для будущих исследований в области масштабирования данных, настройки обучения и выбора моделей. Веса и коды нашей модели будут опубликованы в открытом доступе.
Трансформерные модели для обработки изображений обычно токенизируют изображения на фиксированные квадратные патчи в качестве входных единиц, что не учитывает адаптивность к содержанию изображения и игнорирует присущую структуру группировки пикселей. Вдохновленные субсловной токенизацией, широко применяемой в языковых моделях, мы предлагаем токенизатор изображений на уровне субобъектов, где субобъекты представлены семантически значимыми сегментами изображений, полученными с помощью моделей сегментации (например, моделей типа "segment anything"). Для реализации системы обучения, основанной на токенизации субобъектов, мы сначала представили автоэнкодер последовательностей (SeqAE) для сжатия сегментов субобъектов различного размера и формы в компактные векторные представления, а затем передали эти представления в крупную языковую модель для обучения на стыке зрения и языка. Экспериментальные результаты показали, что токенизация на уровне субобъектов значительно способствует эффективному обучению переводу изображений в описания объектов и их атрибутов по сравнению с традиционной токенизацией на уровне патчей. Коды и модели будут опубликованы на https://github.com/ChenDelong1999/subobjects.
В широком спектре экспериментального проектирования регрессия была мощным инструментом для точного прогнозирования метрик системы или модели на основе заданного набора параметров, однако традиционно ограничивалась методами, применимыми только к конкретным задачам. В данной статье мы представляем OmniPred — фреймворк для обучения языковых моделей в качестве универсальных сквозных регрессоров на основе данных (x, y) из разнообразных реальных экспериментов. Используя данные из Google Vizier, одной из крупнейших в мире баз данных для черного ящика оптимизации, наши масштабные эксперименты демонстрируют, что языковые модели способны выполнять очень точную численную регрессию, используя только текстовые представления математических параметров и значений, и, если им предоставляется возможность обучаться на множестве задач, могут значительно превосходить традиционные модели регрессии.
С быстрым развитием крупных языковых моделей (LLM) был достигнут значительный прогресс в области многоагентных приложений. Однако сложности в координации взаимодействия агентов и нестабильная производительность LLM представляют собой серьезные вызовы при разработке надежных и эффективных многоагентных приложений. Для решения этих задач мы предлагаем AgentScope — ориентированную на разработчиков многоагентную платформу, в основе которой лежит механизм обмена сообщениями. В сочетании с богатым набором синтаксических инструментов, встроенных ресурсов и удобных интерфейсов наш механизм коммуникации значительно снижает барьеры как для разработки, так и для понимания. Для создания устойчивых и гибких многоагентных приложений AgentScope предоставляет как встроенные, так и настраиваемые механизмы отказоустойчивости, а также системную поддержку для генерации, хранения и передачи мультимодальных данных. Кроме того, мы разработали распределенную архитектуру на основе акторов, которая позволяет легко переключаться между локальным и распределенным развертыванием и автоматически оптимизировать параллелизм без дополнительных усилий. Благодаря этим функциям AgentScope дает разработчикам возможность создавать приложения, полностью раскрывающие потенциал интеллектуальных агентов. Мы выпустили AgentScope на https://github.com/modelscope/agentscope и надеемся, что платформа привлечет более широкое участие и инновации в этой быстро развивающейся области.
Выборка из диффузионных вероятностных моделей (DPM) часто требует значительных вычислительных ресурсов для генерации высококачественных изображений и обычно включает множество шагов с использованием крупной модели. В данной работе мы представляем метод Trajectory Stitching T-Stitch — простой, но эффективный способ повышения эффективности выборки с минимальной или нулевой деградацией качества генерации. Вместо использования исключительно крупной DPM на всем протяжении траектории выборки, T-Stitch сначала задействует меньшую DPM на начальных этапах в качестве экономичной замены более крупной модели, а затем переключается на крупную DPM на более поздних стадиях. Наше ключевое наблюдение заключается в том, что различные диффузионные модели обучаются схожим представлениям при одинаковом распределении обучающих данных, а меньшие модели способны генерировать качественные глобальные структуры на ранних этапах. Многочисленные эксперименты показывают, что T-Stitch не требует дополнительного обучения, применим к различным архитектурам и дополняет большинство существующих методов быстрой выборки, обеспечивая гибкий баланс между скоростью и качеством. Например, на модели DiT-XL 40% начальных временных шагов могут быть безопасно заменены на 10 раз более быструю DiT-S без потери производительности при генерации изображений на основе классов в ImageNet. Мы также демонстрируем, что наш метод может использоваться как встраиваемый подход не только для ускорения популярных предобученных моделей Stable Diffusion (SD), но и для улучшения соответствия запросам в стилизованных моделях SD из публичного модельного зоопарка. Код доступен по адресу: https://github.com/NVlabs/T-Stitch.
Интеграция крупных языковых моделей (LLMs) в среды разработки (IDEs) стала ключевым направлением в современной разработке программного обеспечения. LLMs, такие как OpenAI GPT-3.5/4 и Code Llama, обладают потенциалом значительно повысить продуктивность разработчиков, выступая в роли интеллектуальных ассистентов для программирования на основе чата. Однако использование LLMs "из коробки" вряд ли будет оптимальным для любого конкретного сценария. Вместо этого каждая система требует настройки LLM на основе набора эвристик для обеспечения наилучшей производительности. В данной статье мы представляем оценочный инструментарий Copilot: набор данных и инструментов для оценки взаимодействий, управляемых LLM в IDE, охватывающих различные сценарии программирования и языки. Мы предлагаем наши метрики как более надежную и информационно насыщенную оценку по сравнению с предыдущими системами оценки, считающимися передовыми. Мы разрабатываем и вычисляем как статические, так и основанные на выполнении метрики успеха для сценариев, охватывающих широкий спектр задач разработчиков, включая генерацию кода из естественного языка (generate), генерацию документации из кода (doc), генерацию тестовых случаев (test), исправление ошибок (fix), а также понимание рабочего пространства и разрешение запросов (workspace). Эти метрики успеха предназначены для оценки производительности LLM в рамках конкретной IDE и её соответствующего пространства параметров. Наши выводы, полученные в результате оценки трех распространенных LLM с использованием этих метрик, могут способствовать разработке и валидации будущих сценариев в IDE, управляемых LLM.
Недостаток данных в языках с ограниченными ресурсами можно решить с помощью пословного перевода размеченных данных задач из языков с богатыми ресурсами, используя двуязычные словари. Однако двуязычные словари часто имеют ограниченное лексическое совпадение с данными задач, что приводит к низкому охвату перевода и неэффективному использованию словарей. Мы предлагаем метод генерации данных, обусловленной словарями (LexC-Gen), который позволяет масштабируемо генерировать данные для задач классификации на языках с ограниченными ресурсами. В частности, LexC-Gen сначала использует слова из двуязычных словарей для создания совместимых с ними данных задач на языке с богатыми ресурсами, а затем переводит их на язык с ограниченными ресурсами с помощью пословного перевода. На 17 языках с крайне ограниченными ресурсами данные, сгенерированные с помощью LexC-Gen, конкурируют с эталонными данными, переведенными экспертами, и показывают в среднем улучшение на 5,6 и 8,9 баллов по сравнению с существующими методами пословного перевода на основе словарей в задачах анализа тональности и классификации тем соответственно. Мы показываем, что обусловленность двуязычными словарями является ключевым компонентом LexC-Gen. LexC-Gen также практичен — для масштабируемой генерации данных требуется всего один GPU. Метод хорошо работает с открытыми языковыми моделями, а его стоимость составляет одну пятую от стоимости генерации многоязычных данных на основе GPT-4.
В данной работе мы решаем сложную задачу устранения шума во взаимодействиях руки и объекта (Hand-Object Interaction, HOI). Имея ошибочную последовательность взаимодействий, цель состоит в уточнении некорректной траектории руки для удаления артефактов взаимодействия и создания визуально реалистичной последовательности. Эта задача включает сложные виды шума взаимодействия, такие как неестественные позы руки и некорректные отношения между рукой и объектом, а также требует устойчивой обобщаемости к новым взаимодействиям и разнообразным типам шума. Мы решаем эти проблемы с помощью нового подхода, GeneOH Diffusion, который включает два ключевых элемента: инновационное контактно-ориентированное представление HOI под названием GeneOH и новую схему устранения шума, способную обобщаться на различные домены. Контактно-ориентированное представление GeneOH информативно параметризует процесс HOI, способствуя улучшенной обобщаемости в различных сценариях взаимодействий. Новая схема устранения шума состоит из канонической модели, обученной проецировать зашумленные данные из "отбеленного" пространства шума на многообразие чистых данных, и стратегии "устранения шума через диффузию", которая может обрабатывать входные траектории с различными типами шума, сначала диффундируя их для выравнивания с "отбеленным" пространством шума, а затем очищая с помощью канонической модели. Обширные эксперименты на четырех бенчмарках с существенными вариациями доменов демонстрируют превосходную эффективность нашего метода. GeneOH Diffusion также показывает перспективность для различных прикладных задач. Сайт проекта: https://meowuu7.github.io/GeneOH-Diffusion/.
Крупные языковые модели (LLM) являются мощным инструментом для модерации контента, однако их затраты на выполнение выводов и задержки делают их непрактичными для повседневного использования на больших наборах данных, таких как репозиторий Google Ads. В данном исследовании предлагается метод масштабирования проверок с использованием LLM для модерации контента в Google Ads. Сначала мы используем эвристики для отбора кандидатов путем фильтрации и удаления дубликатов, а также создаем кластеры объявлений, для каждого из которых выбираем одно репрезентативное объявление. Затем мы используем LLM для проверки только репрезентативных объявлений. Наконец, мы распространяем решения LLM для репрезентативных объявлений на их кластеры. Этот метод сокращает количество проверок более чем на 3 порядка величины, при этом достигая двукратного улучшения полноты по сравнению с базовой моделью без использования LLM. Успех данного подхода в значительной степени зависит от представлений, используемых при кластеризации и распространении меток; мы обнаружили, что кросс-модальные представления сходства дают лучшие результаты, чем уни-модальные представления.
Масштабные модели преобразования текста в изображения позволяют реализовать широкий спектр техник редактирования изображений с использованием текстовых запросов или даже пространственных управляющих элементов. Однако применение этих методов редактирования к многовидовым изображениям, изображающим одну сцену, приводит к результатам, не согласованным в 3D. В данной работе мы сосредоточимся на геометрических манипуляциях, основанных на пространственном управлении, и представим метод, который объединяет процесс редактирования для различных видов. Мы основываемся на двух ключевых идеях: (1) поддержание согласованных признаков на протяжении всего процесса генерации способствует достижению согласованности при многовидовом редактировании, и (2) запросы в слоях самовнимания значительно влияют на структуру изображения. Следовательно, мы предлагаем улучшить геометрическую согласованность отредактированных изображений, обеспечивая согласованность запросов. Для этого мы представляем QNeRF — нейронное поле излучения, обученное на внутренних признаках запросов отредактированных изображений. После обучения QNeRF может рендерить 3D-согласованные запросы, которые затем мягко внедряются обратно в слои самовнимания в процессе генерации, значительно улучшая многовидовую согласованность. Мы уточняем процесс с помощью прогрессивного итеративного метода, который лучше объединяет запросы на различных этапах диффузии. Мы сравниваем наш метод с рядом существующих техник и демонстрируем, что он позволяет достичь лучшей многовидовой согласованности и более высокой точности по отношению к исходной сцене. Эти преимущества позволяют нам обучать NeRF с меньшим количеством визуальных артефактов, которые лучше соответствуют целевой геометрии.
Появление метода 3D Gaussian Splatting (3DGS) недавно произвело революцию в области нейронного рендеринга, обеспечивая высококачественную визуализацию в режиме реального времени. Однако 3DGS сильно зависит от инициализированного облака точек, созданного с помощью методов Structure-from-Motion (SfM). При работе с крупномасштабными сценами, которые неизбежно содержат поверхности с низкой текстурой, методы SfM часто не могут сгенерировать достаточное количество точек на этих поверхностях и не обеспечивают хорошей инициализации для 3DGS. В результате 3DGS сталкивается с трудностями оптимизации и низким качеством рендеринга. В данной статье, вдохновленные классическими методами многовидовой стереоскопии (MVS), мы предлагаем GaussianPro — новый метод, который применяет прогрессивную стратегию распространения для управления уплотнением 3D-гауссов. В отличие от простых стратегий разделения и клонирования, используемых в 3DGS, наш метод использует априорные знания о существующих реконструированных геометриях сцены и техники сопоставления патчей для создания новых гауссов с точными позициями и ориентациями. Эксперименты на крупномасштабных и небольших сценах подтверждают эффективность нашего метода, где он значительно превосходит 3DGS на наборе данных Waymo, демонстрируя улучшение на 1.15 дБ по показателю PSNR.
Мы представляем CyberDemo — новый подход к обучению роботов методом имитации, который использует симулированные демонстрации человека для выполнения задач в реальном мире. Благодаря применению расширенной аугментации данных в симулированной среде, CyberDemo превосходит традиционные методы, основанные на реальных демонстрациях, при переносе в реальный мир, успешно справляясь с разнообразными физическими и визуальными условиями. Несмотря на доступность и удобство сбора данных, CyberDemo демонстрирует более высокие показатели успешности выполнения задач по сравнению с базовыми методами и проявляет обобщаемость при работе с ранее неизвестными объектами. Например, он способен вращать новые тетра- и пента-клапаны, несмотря на то, что демонстрации человека включали только три-клапаны. Наше исследование показывает значительный потенциал симулированных демонстраций человека для выполнения задач ловкого манипулирования в реальном мире. Подробности можно найти на https://cyber-demo.github.io.
Как перспективная технология генерации 3D, мультивью диффузия (MVD) привлекает значительное внимание благодаря своим преимуществам в области обобщаемости, качества и эффективности. Путем дообучения предварительно обученных крупных моделей диффузии изображений на 3D данных, методы MVD сначала генерируют несколько видов 3D объекта на основе изображения или текстового запроса, а затем восстанавливают 3D формы с помощью мультивью 3D реконструкции. Однако разреженные виды и несогласованные детали в сгенерированных изображениях делают 3D реконструкцию сложной задачей. Мы представляем MVD^2, эффективный метод 3D реконструкции для изображений мультивью диффузии (MVD). MVD^2 агрегирует признаки изображений в 3D объем признаков с помощью проекции и свертки, а затем декодирует объемные признаки в 3D сетку. Мы обучаем MVD^2 на коллекциях 3D форм и изображениях MVD, сгенерированных на основе визуализированных видов 3D форм. Для устранения расхождений между сгенерированными мультивью изображениями и эталонными видами 3D форм, мы разработали простую, но эффективную схему обучения, зависящую от вида. MVD^2 улучшает качество 3D генерации MVD, являясь быстрым и устойчивым к различным методам MVD. После обучения он может эффективно декодировать 3D сетки из мультивью изображений менее чем за одну секунду. Мы обучаем MVD^2 на данных Zero-123++ и наборе данных ObjectVerse-LVIS 3D, демонстрируя его превосходную производительность в генерации 3D моделей из мультивью изображений, созданных различными методами MVD, используя как синтетические, так и реальные изображения в качестве запросов.
Недавние исследования показали, что трансформеры, в частности модели с линейным вниманием, неявно выполняют алгоритмы, подобные градиентному спуску, на данных, предоставленных в контексте, во время их прямого прохода. Однако их способность справляться с более сложными задачами остается неисследованной. В данной работе мы доказываем, что любой линейный трансформер поддерживает неявную линейную модель и может интерпретироваться как выполняющий вариант предобусловленного градиентного спуска. Мы также исследуем использование линейных трансформеров в сложном сценарии, где обучающие данные искажены различными уровнями шума. Примечательно, что мы демонстрируем, что для этой задачи линейные трансформеры обнаруживают сложный и высокоэффективный алгоритм оптимизации, превосходящий или сопоставимый по производительности со многими разумными базовыми подходами. Мы реконструируем этот алгоритм и показываем, что он представляет собой новый подход, включающий импульс и адаптивное масштабирование в зависимости от уровня шума. Наши результаты показывают, что даже линейные трансформеры обладают удивительной способностью обнаруживать сложные стратегии оптимизации.
Обучение с подражанием позволяет изучать политику на основе демонстраций, не требуя ручного проектирования функций вознаграждения. Во многих робототехнических задачах, таких как автономные гонки, имитируемые политики должны моделировать сложную динамику среды и принятие решений человеком. Моделирование последовательностей высокоэффективно для захвата сложных паттернов последовательностей движений, но испытывает трудности с адаптацией к новым средам или сдвигам распределения, которые часто встречаются в реальных робототехнических задачах. В отличие от этого, состязательное обучение с подражанием (Adversarial Imitation Learning, AIL) может смягчить этот эффект, но сталкивается с проблемой неэффективности выборок и обработки сложных паттернов движений. Таким образом, мы предлагаем BeTAIL: Behavior Transformer Adversarial Imitation Learning, который объединяет политику Behavior Transformer (BeT), обученную на демонстрациях человека, с онлайн AIL. BeTAIL добавляет остаточную политику AIL к политике BeT для моделирования последовательного процесса принятия решений экспертами-людьми и коррекции состояний, выходящих за пределы распределения, или сдвигов в динамике среды. Мы тестируем BeTAIL на трех задачах с демонстрациями уровня экспертов реального геймплея людей в Gran Turismo Sport. Наша предложенная остаточная BeTAIL сокращает взаимодействия со средой и улучшает производительность и стабильность гонок, даже когда BeT предварительно обучена на трассах, отличных от тех, что используются в последующем обучении. Видео и код доступны по адресу: https://sites.google.com/berkeley.edu/BeTAIL/home.