Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели демонстрируют выдающиеся результаты в генерации кода на уровне функций и файлов, однако создание полных репозиториев с нуля остается фундаментальной задачей. Этот процесс требует согласованного и надежного планирования на этапах предложения и реализации, в то время как естественный язык, из-за своей неоднозначности и многословности, плохо подходит для точного представления сложных программных структур. Для решения этой проблемы мы представляем Граф Планирования Репозитория (Repository Planning Graph, RPG) — устойчивое представление, которое объединяет планирование на уровне предложения и реализации, кодируя возможности, структуры файлов, потоки данных и функции в одном графе. RPG заменяет неоднозначный естественный язык явным планом, что позволяет осуществлять долгосрочное планирование и масштабируемую генерацию репозиториев. На основе RPG мы разработали ZeroRepo — граф-ориентированную структуру для генерации репозиториев с нуля. Она работает в три этапа: планирование на уровне предложения и уточнение на уровне реализации для построения графа, за которым следует генерация кода под управлением графа с проверкой тестов. Для оценки этого подхода мы создали RepoCraft — эталонный набор из шести реальных проектов с 1 052 задачами. На RepoCraft ZeroRepo создает репозитории, в среднем содержащие почти 36 тысяч строк кода, что примерно в 3,9 раза больше, чем у самого сильного базового метода (Claude Code), и примерно в 64 раза больше, чем у других базовых методов. Он достигает 81,5% функционального покрытия и 69,7% успешных тестов, превосходя Claude Code на 27,3 и 35,8 процентных пунктов соответственно. Дополнительный анализ показывает, что RPG моделирует сложные зависимости, позволяет постепенно усложнять планирование благодаря почти линейному масштабированию и улучшает понимание репозиториев языковыми моделями, тем самым ускоряя локализацию агентов.
Унифицированные мультимодальные большие языковые модели (LLM), способные как понимать, так и генерировать визуальный контент, обладают огромным потенциалом. Однако существующие модели с открытым исходным кодом часто сталкиваются с компромиссом в производительности между этими возможностями. Мы представляем Manzano — простую и масштабируемую унифицированную архитектуру, которая существенно снижает это напряжение за счет сочетания гибридного токенизатора изображений и тщательно подобранного рецепта обучения. Единый общий визуальный кодировщик передает данные двум легковесным адаптерам, которые создают непрерывные эмбеддинги для понимания изображений в текст и дискретные токены для генерации текста в изображение в рамках общего семантического пространства. Унифицированная авторегрессивная LLM предсказывает высокоуровневую семантику в виде текстовых и визуальных токенов, а вспомогательный диффузионный декодер затем преобразует визуальные токены в пиксели. Архитектура, вместе с унифицированным рецептом обучения на данных для понимания и генерации, позволяет масштабируемое совместное обучение обеим возможностям. Manzano достигает передовых результатов среди унифицированных моделей и конкурирует со специализированными моделями, особенно на тестах, богатых текстом. Наши исследования показывают минимальные конфликты задач и стабильные улучшения при увеличении размера модели, подтверждая наш выбор гибридного токенизатора.
Генеративное моделирование, обучение представлений и классификация являются тремя ключевыми задачами в машинном обучении (ML), однако их современные (SoTA) решения остаются в значительной степени разрозненными. В данной статье мы задаемся вопросом: может ли единый принцип охватить все три задачи? Такая унификация могла бы упростить ML-пайплайны и способствовать большей синергии между задачами. Мы представляем Latent Zoning Network (LZN) как шаг к этой цели. В основе LZN лежит создание общего гауссовского латентного пространства, которое кодирует информацию для всех задач. Каждый тип данных (например, изображения, текст, метки) оснащен кодировщиком, который отображает выборки в непересекающиеся латентные зоны, и декодировщиком, который отображает латентные переменные обратно в данные. Задачи ML выражаются как композиции этих кодировщиков и декодировщиков: например, генерация изображений с условием на метки использует кодировщик меток и декодировщик изображений; встраивание изображений использует кодировщик изображений; классификация использует кодировщик изображений и декодировщик меток. Мы демонстрируем потенциал LZN в трех постепенно усложняющихся сценариях: (1) LZN может улучшать существующие модели (генерация изображений): при объединении с SoTA-моделью Rectified Flow, LZN улучшает FID на CIFAR10 с 2.76 до 2.59 — без изменения целевой функции обучения. (2) LZN может решать задачи независимо (обучение представлений): LZN может реализовать обучение представлений без вспомогательных функций потерь, превосходя ключевые методы MoCo и SimCLR на 9.3% и 0.2% соответственно в задаче линейной классификации на ImageNet. (3) LZN может решать несколько задач одновременно (совместная генерация и классификация): с использованием кодировщиков и декодировщиков изображений и меток, LZN выполняет обе задачи совместно по замыслу, улучшая FID и достигая SoTA точности классификации на CIFAR10. Код и обученные модели доступны по адресу https://github.com/microsoft/latent-zoning-networks. Сайт проекта находится по адресу https://zinanlin.me/blogs/latent_zoning_networks.html.
Создание высококачественных 3D-моделей интерьеров имеет ключевое значение для приложений в дизайне, виртуальной реальности и робототехнике. Однако ручное 3D-моделирование остается трудоемким и затратным по времени процессом. Хотя последние достижения в области генеративного ИИ позволили автоматизировать синтез сцен, существующие методы часто сталкиваются с трудностями в балансировке визуального качества, разнообразия, семантической согласованности и контроля со стороны пользователя. Основным ограничением является отсутствие крупномасштабного, высококачественного набора данных, адаптированного для этой задачи. Чтобы устранить этот пробел, мы представляем всеобъемлющий синтетический набор данных, включающий 12 328 структурированных аннотированных сцен с 57 440 комнатами и 4,7 млн фотореалистичных 2D-рендеров. Используя этот набор данных, мы представляем SpatialGen — новую многомодальную диффузионную модель с несколькими видами, которая генерирует реалистичные и семантически согласованные 3D-сцены интерьеров. На основе 3D-планировки и эталонного изображения (полученного из текстового запроса) наша модель синтезирует внешний вид (цветное изображение), геометрию (карта координат сцены) и семантику (карта семантической сегментации) с произвольных точек обзора, сохраняя пространственную согласованность между модальностями. SpatialGen демонстрирует стабильно превосходящие результаты по сравнению с предыдущими методами в наших экспериментах. Мы открываем доступ к нашим данным и моделям, чтобы поддержать сообщество и способствовать развитию области понимания и генерации интерьерных сцен.
Быстрое развитие мультимодальных больших языковых моделей (MLLMs) сделало их согласование с человеческими предпочтениями критически важной задачей. Модели вознаграждения (RMs) являются ключевой технологией для достижения этой цели, однако как в академических кругах, так и в индустрии отсутствует систематическое руководство по созданию передовых мультимодальных моделей вознаграждения (MRMs). На основе всестороннего экспериментального анализа данная работа ставит целью предоставить четкий «рецепт» для построения высокопроизводительных MRMs. Мы систематически исследуем каждый важный компонент в процессе разработки MRM, включая парадигмы моделирования вознаграждения (например, Naive-RM, Critic-based RM и Generative RM), архитектуру головы вознаграждения, стратегии обучения, подготовку данных (охватывающую более десяти мультимодальных и текстовых наборов данных предпочтений), базовую модель и масштаб модели, а также методы ансамблирования. На основе этих экспериментальных данных мы представляем BaseReward — мощный и эффективный базовый подход для мультимодального моделирования вознаграждения. BaseReward использует простую, но эффективную архитектуру, основанную на базовой модели {Qwen2.5-VL}, оснащенную оптимизированной двухслойной головой вознаграждения и обученную на тщательно отобранной смеси высококачественных мультимодальных и текстовых данных предпочтений. Наши результаты показывают, что BaseReward устанавливает новый рекорд на основных бенчмарках, таких как MM-RLHF-Reward Bench, VL-Reward Bench и Multimodal Reward Bench, превосходя предыдущие модели. Кроме того, чтобы подтвердить ее практическую полезность за пределами статических бенчмарков, мы интегрировали BaseReward в реальный конвейер обучения с подкреплением, успешно улучшив производительность MLLM в различных задачах восприятия, рассуждения и диалога. Эта работа не только предоставляет передовую MRM, но, что более важно, предлагает сообществу четкое, эмпирически обоснованное руководство для разработки надежных моделей вознаграждения для следующего поколения MLLMs.
Роботизированное обучение с подкреплением (RL) в реальном мире с использованием моделей "визуальный язык-действие" (VLA) сталкивается с ограничениями из-за редких, вручную созданных наград и неэффективного исследования. Мы представляем VLAC — общую модель поощрения, основанную на InternVL и обученную на крупномасштабных гетерогенных данных. Принимая парные наблюдения и языковую цель, она выдает плотные сигналы прогресса и завершения, устраняя необходимость в специфической для задачи инженерии наград, и поддерживает одношаговый перенос в контексте на новые задачи и среды. VLAC обучается на наборах данных "визуальный язык" для усиления восприятия, диалоговых и логических способностей, а также на данных траекторий роботов и людей, которые закрепляют генерацию действий и оценку прогресса, и дополнительно укрепляется для отклонения нерелевантных запросов и обнаружения регрессии или застоя путем создания большого количества негативных и семантически несовпадающих примеров. С управлением запросами одна модель VLAC поочередно генерирует токены наград и действий, объединяя критика и политику. Развернутая внутри асинхронного цикла RL в реальном мире, мы используем многоуровневый протокол с участием человека (воспроизведение демонстраций оффлайн, возврат и исследование, исследование с участием человека), который ускоряет исследование и стабилизирует раннее обучение. В четырех различных задачах манипуляции в реальном мире VLAC повышает уровень успеха с примерно 30% до около 90% в течение 200 эпизодов взаимодействия в реальном мире; включение вмешательств с участием человека дает дополнительное улучшение эффективности выборки на 50% и достигает до 100% конечного успеха.
Представляем Lynx — высокоточную модель для персонализированного синтеза видео на основе одного входного изображения. Построенная на базе открытой модели Diffusion Transformer (DiT), Lynx включает два легковесных адаптера для обеспечения точности передачи идентичности. ID-адаптер использует Perceiver Resampler для преобразования лицевых эмбеддингов, полученных с помощью ArcFace, в компактные токены идентичности для кондиционирования, в то время как Ref-адаптер интегрирует плотные признаки VAE из замороженного референсного пути, внедряя детализированные элементы на всех уровнях трансформера через механизм кросс-внимания. Эти модули совместно обеспечивают надежное сохранение идентичности, поддерживая временную согласованность и визуальный реализм. В ходе оценки на тщательно отобранном наборе данных из 40 субъектов и 20 нейтральных промптов, что составило 800 тестовых случаев, Lynx продемонстрировала превосходное сходство лиц, конкурентоспособное следование промптам и высокое качество видео, тем самым продвигая состояние персонализированной генерации видео.
В области автоматизации взаимодействия человека с графическим интерфейсом (GUI) на основе ИИ, несмотря на быстрые успехи в мультимодальных больших языковых моделях и методах тонкой настройки с подкреплением, сохраняется фундаментальная проблема: их логика взаимодействия существенно отличается от естественных паттернов коммуникации между человеком и GUI. Чтобы устранить этот разрыв, мы предлагаем "Blink-Think-Link" (BTL) — биоинспирированную структуру для взаимодействия человека с GUI, которая имитирует когнитивный процесс между пользователями и графическими интерфейсами. Система разбивает взаимодействие на три биологически правдоподобные фазы: (1) Blink — быстрое обнаружение и внимание к релевантным областям экрана, аналогичное саккадическим движениям глаз; (2) Think — высокоуровневое рассуждение и принятие решений, отражающее когнитивное планирование; и (3) Link — генерация исполняемых команд для точного моторного контроля, имитирующая механизмы выбора действий у человека. Кроме того, мы представляем два ключевых технических новшества для структуры BTL: (1) Blink Data Generation — автоматизированный конвейер аннотации, оптимизированный специально для данных о "мигании", и (2) BTL Reward — первый механизм вознаграждения на основе правил, который позволяет обучение с подкреплением, управляемое как процессом, так и результатом. На основе этой структуры мы разрабатываем модель агента GUI под названием BTL-UI, которая демонстрирует стабильно передовые результаты как в задачах статического понимания GUI, так и в динамических задачах взаимодействия в комплексных тестах. Эти результаты предоставляют убедительное эмпирическое подтверждение эффективности структуры в разработке продвинутых агентов GUI.
Хотя COLMAP долгое время оставался преобладающим методом для оптимизации параметров камеры в статических сценах, он ограничен длительным временем выполнения и зависимостью от масок движения, основанных на точных данных (GT), для применения в динамических сценах. Многие попытки улучшить его включали использование дополнительных априорных данных в качестве обучения, таких как точное фокусное расстояние, маски движения, 3D облака точек, позы камеры и метрическая глубина, которые, однако, обычно недоступны в случайно снятых RGB-видео. В данной статье мы предлагаем новый метод для более точной и эффективной оптимизации параметров камеры в динамических сценах, использующий в качестве обучения только одно RGB-видео. Наш метод состоит из трех ключевых компонентов: (1) Фильтры отслеживания на основе патчей, для установления устойчивых и максимально разреженных шарнирных связей по всему RGB-видео. (2) Совместная оптимизация с учетом выбросов, для эффективной оптимизации параметров камеры путем адаптивного снижения веса движущихся выбросов без использования априорных данных о движении. (3) Двухэтапная стратегия оптимизации, для повышения стабильности и скорости оптимизации за счет компромисса между пределами Softplus и выпуклыми минимумами в функциях потерь. Мы визуально и численно оцениваем наши оценки параметров камеры. Для дальнейшей проверки точности мы передаем оценки параметров камеры в метод 4D-реконструкции и оцениваем полученные 3D-сцены, а также визуализированные 2D RGB и карты глубины. Мы проводим эксперименты на 4 реальных наборах данных (NeRF-DS, DAVIS, iPhone и TUM-dynamics) и 1 синтетическом наборе данных (MPI-Sintel), демонстрируя, что наш метод оценивает параметры камеры более эффективно и точно, используя только одно RGB-видео в качестве обучения.
Текст-в-речь с управлением через инструкции (ITTS) позволяет пользователям управлять генерацией речи с помощью подсказок на естественном языке, предлагая более интуитивно понятный интерфейс по сравнению с традиционными системами TTS. Однако соответствие между инструкциями пользователя по стилю и восприятием слушателя остается в значительной степени неисследованным. В данной работе сначала проводится перцептивный анализ управляемости ITTS по двум выразительным измерениям (наречия степени и градация интенсивности эмоций) и собираются человеческие оценки таких атрибутов, как возраст говорящего и акцент на уровне слов. Чтобы всесторонне выявить разрыв между инструкцией и восприятием, мы предоставляем набор данных с масштабными человеческими оценками, названный корпусом Expressive VOice Control (E-VOC). Кроме того, мы выясняем, что (1) модель gpt-4o-mini-tts является наиболее надежной ITTS-системой с высокой степенью соответствия между инструкцией и генерируемыми высказываниями по акустическим измерениям. (2) Проанализированные 5 ITTS-систем склонны генерировать голоса взрослых, даже если инструкции требуют использования детских или старческих голосов. (3) Точное управление остается серьезной проблемой, что указывает на значительный потенциал для улучшения большинства ITTS-систем в интерпретации слегка различающихся инструкций по атрибутам.
Ролевые агенты (RPAs) привлекают растущий интерес благодаря своей способности моделировать иммерсивных и интерактивных персонажей. Однако существующие подходы в основном сосредоточены на статических профилях ролей, игнорируя динамические перцептивные способности, присущие людям. Чтобы устранить этот пробел, мы вводим концепцию динамических профилей ролей, интегрируя видеомодальность в RPAs. Для поддержки этого мы создали Role-playing-Video60k — масштабный, высококачественный набор данных, включающий 60 тысяч видео и 700 тысяч соответствующих диалогов. На основе этого набора данных мы разработали комплексную структуру RPA, которая сочетает адаптивную временную выборку с представлениями как динамических, так и статических профилей ролей. В частности, динамический профиль создается путем адаптивной выборки кадров видео и их последовательной передачи в LLM, тогда как статический профиль состоит из (1) диалогов персонажей из обучающих видео в процессе тонкой настройки и (2) контекстного резюме входного видео во время вывода. Такая совместная интеграция позволяет RPAs генерировать более качественные ответы. Кроме того, мы предлагаем надежный метод оценки, охватывающий восемь метрик. Результаты экспериментов демонстрируют эффективность нашей структуры, подчеркивая важность динамических профилей ролей в разработке RPAs.
Человеческое общение включает язык, речь и визуальные сигналы, причем каждый из этих каналов предоставляет дополнительную информацию. Например, речь передает настроение или тон, которые не полностью улавливаются только текстом. В то время как мультимодальные языковые модели (LLM) сосредоточены на генерации текстовых ответов на основе разнообразных входных данных, меньше внимания уделяется созданию естественной и увлекательной речи. Мы предлагаем агента, похожего на человека, который генерирует речевые ответы на основе настроения беседы и информации о стиле реагирования. Для достижения этой цели мы создаем новый набор данных MultiSensory Conversation, ориентированный на речь, чтобы позволить агентам генерировать естественную речь. Затем мы предлагаем мультимодальную модель на основе LLM для генерации текстовых ответов и описаний голоса, которые используются для создания речи, охватывающей паралингвистическую информацию. Экспериментальные результаты демонстрируют эффективность использования как визуальных, так и аудио модальностей в беседе для генерации увлекательной речи. Исходный код доступен по адресу https://github.com/kimtaesu24/MSenC.
Предобученные модели автоматического распознавания речи (ASR), такие как Whisper, демонстрируют высокую производительность, но всё же требуют адаптации к домену для обработки неизвестной лексики и речевых особенностей. Во многих реальных условиях сбор речевых данных оказывается непрактичным, что делает необходимым адаптацию только на основе текста. Мы предлагаем WhisTLE — метод глубоко контролируемой адаптации только на основе текста для предобученных моделей ASR с архитектурой "кодировщик-декодировщик". WhisTLE обучает вариационный автоэнкодер (VAE) для моделирования выходов кодировщика на основе текста и тонко настраивает декодировщик с использованием обученного текстово-латентного кодировщика, при необходимости комбинируя это с адаптацией на основе синтеза речи (TTS). На этапе вывода исходный кодировщик восстанавливается, что не влечёт дополнительных вычислительных затрат. На четырёх наборах данных из других доменов и четырёх моделях ASR WhisTLE с TTS снижает частоту ошибок по словам (WER) на 12,3% по сравнению с адаптацией только на основе TTS и превосходит все базовые методы, не использующие WhisTLE, в 27 из 32 сценариев.
Конечная цель воплощенных агентов заключается в создании помощников, способных взаимодействовать с людьми, а не просто исполнителей, пассивно выполняющих инструкции. Это требует от агентов умения общаться, координировать и адаптировать свои действия на основе обратной связи от человека. В последнее время достижения в области визуально-языковых моделей (VLA) открыли путь к этой цели. Однако большинство современных воплощенных агентов на основе VLA работают в одностороннем режиме: они получают инструкцию и выполняют ее без обратной связи. Такой подход терпит неудачу в реальных сценариях, где инструкции часто бывают неоднозначными. В данной статье мы решаем эту проблему с помощью фреймворка Ask-to-Clarify. Наш фреймворк сначала устраняет неоднозначность инструкций, задавая вопросы в многоходовом диалоге, а затем генерирует низкоуровневые действия end-to-end. Конкретно, фреймворк Ask-to-Clarify состоит из двух компонентов: одного VLM для взаимодействия и одного диффузионного модуля для действий. Мы также вводим модуль связи, который генерирует условия для диффузии на основе выхода VLM. Этот модуль корректирует наблюдения в соответствии с инструкциями, чтобы создать надежные условия. Мы обучаем наш фреймворк с использованием двухэтапной стратегии изоляции знаний. Сначала мы дообучаем компонент взаимодействия на данных диалогов, решающих неоднозначности, чтобы справляться с ними. Затем мы интегрируем компонент действий, замораживая компонент взаимодействия. Это сохраняет способности к взаимодействию, одновременно дообучая диффузию для генерации действий. Стратегия обучения гарантирует, что наш фреймворк сначала задает вопросы, а затем генерирует действия. Во время вывода детектор сигналов действует как маршрутизатор, помогая нашему фреймворку переключаться между задаванием вопросов и выполнением действий. Мы оцениваем фреймворк Ask-to-Clarify на 8 реальных задачах, где он превосходит существующие передовые VLA. Результаты показывают, что предложенный нами фреймворк вместе с обучающей стратегией прокладывает путь к созданию воплощенных агентов, способных к сотрудничеству.