Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели со смесью экспертов (MoE) не имеют явных ограничений, гарантирующих соответствие решений маршрутизатора возможностям экспертов, что в конечном счете ограничивает производительность модели. Для решения этой проблемы мы предлагаем функцию потерь связи «эксперт-маршрутизатор» (ERC loss) — легковесную вспомогательную функцию потерь, которая тесно связывает решения маршрутизатора с возможностями экспертов. Наш подход рассматривает эмбеддинг маршрутизатора каждого эксперта как прокси-токен для токенов, назначенных этому эксперту, и пропускает возмущенные эмбеддинги маршрутизатора через экспертов для получения внутренних активаций. Функция потерь ERC накладывает два ограничения на эти активации: (1) Каждый эксперт должен демонстрировать более высокую активацию для своего собственного прокси-токена, чем для прокси-токенов любого другого эксперта. (2) Каждый прокси-токен должен вызывать более сильную активацию у своего соответствующего эксперта, чем у любого другого эксперта. Эти ограничения в совокупности гарантируют, что каждый эмбеддинг маршрутизатора достоверно отражает возможности соответствующего эксперта, в то время как каждый эксперт специализируется на обработке фактически направленных к нему токенов. Функция потерь ERC вычислительно эффективна, оперируя лишь n² активациями, где n — количество экспертов. Это представляет собой фиксированную стоимость, не зависящую от размера пакета, в отличие от предыдущих методов связи, которые масштабируются с количеством токенов (часто миллионы на пакет). Благодаря предварительному обучению MoE-LLM с диапазоном параметров от 3B до 15B и обширному анализу на триллионах токенов мы демонстрируем эффективность функции потерь ERC. Более того, функция потерь ERC обеспечивает гибкий контроль и количественное отслеживание уровней специализации экспертов во время обучения, предоставляя ценные insights о MoE-моделях.
Генерация видео в реальном времени с помощью диффузионных моделей является ключевой для создания универсальных многомодальных интерактивных систем ИИ. Однако одновременное шумоподавление всех кадров видео с помощью двунаправленного внимания в итеративном процессе диффузионных моделей препятствует интерактивности в реальном времени. Хотя существующие методы дистилляции позволяют сделать модель авторегрессионной и сократить шаги сэмплирования для смягчения этой проблемы, они в основном ориентированы на генерацию видео по тексту, что делает взаимодействие человека с ИИ неестественным и менее эффективным. Данная работа направлена на создание интерактивной диффузионной модели видео в реальном времени, обусловленной многомодальным контекстом (текст, изображение, аудио), чтобы устранить этот разрыв. Учитывая наблюдение, что ведущий подход он-политиковой дистилляции Self Forcing сталкивается с проблемами (визуальные артефакты, такие как мерцание, черные кадры и деградация качества) при многомодальном обусловливании, мы исследуем улучшенную методику дистилляции с акцентом на качество входных условий, а также на инициализацию и расписание он-политиковой оптимизации. На бенчмарках для многомодально-обусловленной (аудио, изображение, текст) генерации аватаров, включая HDTF, AVSpeech и CelebV-HQ, наша дистиллированная модель соответствует визуальному качеству полностпепных двунаправленных базовых моделей сравнимого или большего размера при 20-кратном снижении вычислительных затрат и задержки вывода. Кроме того, мы интегрируем нашу модель с аудио-языковыми моделями и техникой долгосрочного вывода видео Anchor-Heavy Identity Sinks для создания LiveTalk — системы интерактивных аватаров в реальном времени. Системная оценка на нашем специально созданном бенчмарке многораундового взаимодействия показывает, что LiveTalk превосходит современные модели (Sora2, Veo3) по согласованности видео и качеству контента в многораундовом сценарии, сокращая при этом задержку ответа с 1–2 минут до генерации в реальном времени, что обеспечивает беспрерывное многомодальное взаимодействие человека с ИИ.
Современные подходы продемонстрировали перспективность использования диффузионных моделей для генерации интерактивных и исследуемых миров. Однако большинство этих методов сталкивается с серьезными проблемами, такими как чрезмерно большой размер параметров, зависимость от длительных шагов вывода и быстрорастущий исторический контекст, что существенно ограничивает производительность в реальном времени и отсутствие возможностей генерации по текстовому описанию. Для решения этих проблем мы предлагаем \method, новую архитектуру, предназначенную для создания реалистичных, интерактивных и непрерывных миров из одного изображения или текстового промпта. \method достигает этого за счет тщательно продуманной архитектуры, поддерживающей исследование сгенерированных миров с помощью клавиатуры. Фреймворк состоит из трех ключевых компонентов: (1) система генерации длинных видео, интегрирующая унифицированное сжатие контекста с линейным вниманием; (2) стратегия ускорения потоковой обработки в реальном времени на основе двунаправленной дистилляции внимания и усовершенствованной схемы текстовых эмбеддингов; (3) метод управления генерацией мировых событий через текст. Мы предоставили код в дополнительных материалах.
Агентное обучение с подкреплением (RL) обладает значительным потенциалом для разработки автономных агентов, решающих сложные задачи в графическом интерфейсе, однако его масштабируемость остается серьезно ограниченной из-за проблемы верификации завершения задачи. Существующие методы проверки задач представляют собой пассивный, постфактум процесс: верификатор (например, правило-based скрипт оценки, модель вознаграждения или критик, LLM-as-a-Judge) анализирует всю траекторию взаимодействия агента, чтобы определить его успешность. Такая обработка пространного контекста, содержащего нерелевантную, зашумленную историю, создает проблемы для протоколов верификации и, как следствие, приводит к неприемлемо высокой стоимости и низкой надежности. Чтобы преодолеть это узкое место, мы предлагаем SmartSnap — парадигматический сдвиг от пассивной, постфактум верификации к проактивной, in-situ самоверификации со стороны самого агента. Мы представляем Самоверифицирующего Агента — новый тип агента, разработанный с двойной миссией: не только выполнить задачу, но и доказать ее выполнение с помощью тщательно отобранных свидетельств-снимков. Руководствуясь предложенными нами Принципами 3C (Полнота, Лаконичность и Креативность), агент использует свой доступ к онлайн-среде для проведения самоверификации на основе минимального, решающего набора снимков. Эти свидетельства предоставляются в качестве единственного материала для общего верификатора LLM-as-a-Judge, чтобы определить их достоверность и релевантность. Эксперименты на мобильных задачах для моделей различных семейств и масштабов демонстрируют, что наша парадигма SmartSnap позволяет обучать агентов на основе LLM масштабируемым образом, обеспечивая прирост производительности до 26,08% и 16,66% для моделей на 8B и 30B параметров соответственно. Синергия между поиском решения и сбором доказательств способствует формированию эффективных, самоверифицирующих агентов, демонстрирующих конкурентоспособные результаты в сравнении с DeepSeek V3.1 и Qwen3-235B-A22B.
Прозрачные объекты остаются крайне сложными для систем восприятия: преломление, отражение и пропускание света нарушают предпосылки, лежащие в основе стереозрения, Time-of-Flight и чисто дискриминативных монокулярных методов оценки глубины, что приводит к пропускам и временно нестабильным оценкам. Наше ключевое наблюдение заключается в том, что современные модели диффузии видео уже синтезируют убедительные прозрачные явления, что свидетельствует об интериоризации ими оптических закономерностей. Мы создали TransPhy3D, синтетический видеокорпус сцен с пррачными и отражающими объектами: 11 тысяч последовательностей, отрендеренных в Blender/Cycles. Сцены собраны из курируемой базы статических ассетов, богатых категориями, и процедурных ассетов, богатых формами, в сочетании со стеклянными, пластиковыми и металлическими материалами. Мы рендерим RGB + глубина + нормали с помощью физически корректного трассировки лучей и шумоподавления OptiX. Исходя из крупной модели диффузии видео, мы обучаем видео-видео транслятор для карт глубины (и нормалей) с помощью легковесных адаптеров LoRA. Во время обучения мы конкатенируем латентные представления RGB и (зашумленной) глубины в DiT-архитектуре и проводим совместное обучение на TransPhy3D и существующих покадровых синтетических наборах данных, получая временно согласованные предсказания для входных видео произвольной длины. Полученная модель, DKT, достигает state-of-the-art в режиме zero-shot на реальных и синтетических видео-бенчмарках, включающих прозрачность: ClearPose, DREDS (CatKnown/CatNovel) и TransPhy3D-Test. Она повышает точность и временную согласованность по сравнению с сильными изображенческими и видео-базлайнами, а вариант для нормалей устанавливает наилучшие результаты оценки нормалей на видео для ClearPose. Компактная версия на 1.3B параметров работает со скоростью ~0.17 с/кадр. Интегрированная в систему захвата, оценка глубины от DKT повышает процент успеха для translucent, отражающих и диффузных поверхностей, превосходя предыдущие методы оценки. В совокупности эти результаты подтверждают более широкий тезис: "Диффузия знает прозрачность". Генеративные видео-априори могут быть перепрофилированы, эффективно и без разметки, в робастное, временно когерентное восприятие для сложных задач манипуляции в реальном мире.
Методы сверхразрешения видео на основе диффузии (VSR) демонстрируют высокое перцептивное качество, но остаются непрактичными для сценариев, чувствительных к задержкам, из-за зависимости от будущих кадров и ресурсоемкого многошагового шумоподавления. Мы предлагаем Stream-DiffVSR — каузально-условную диффузионную框架 для эффективного онлайн VSR. Работая строго на прошлых кадрах, метод объединяет четырехшаговый дистиллированный денойзер для быстрого вывода, модуль авторегрессионного временного guidance (ARTG), который инжектирует выровненные по движению подсказки во время латентного шумоподавления, и облегченный временно-осознающий декодер с модулем временной обработки (TPM), улучшающий детализацию и временную согласованность. Stream-DiffVSR обрабатывает кадры 720p за 0.328 секунды на GPU RTX4090 и значительно превосходит предыдущие диффузионные методы. По сравнению с онлайн SOTA TMP, метод улучшает перцептивное качество (LPIPS +0.095), одновременно снижая задержку более чем в 130 раз. Stream-DiffVSR демонстрирует наименьшую задержку среди заявленных для диффузионного VSR, сокращая начальную задержку с более чем 4600 секунд до 0.328 секунды, что делает его первым диффузионным методом VSR, пригодным для низколатентного онлайн-развертывания. Страница проекта: https://jamichss.github.io/stream-diffvsr-project-page/
Хотя авторегрессионные большие визуально-языковые модели (VLM) достигли значительных успехов, их последовательная генерация часто ограничивает эффективность в задачах сложного визуального планирования и динамического управления роботами. В данной работе мы исследуем потенциал построения визуально-языковых моделей на основе диффузионных больших языковых моделей (dLLM) для преодоления этих ограничений. Мы представляем Dream-VL — открытую диффузионную VLM (dVLM), достигающую наилучших показателей среди существующих dVLM. Dream-VL сопоставима с ведущими AR-ориентированными VLM, обученными на открытых данных, в различных тестах, но демонстрирует превосходный потенциал при решении задач визуального планирования. На базе Dream-VL мы представляем Dream-VLA — модель «Визуальный язык-действие» на основе dLLM (dVLA), разработанную путем непрерывного дообучения на открытых роботехнических наборах данных. Мы показываем, что изначально двунаправленная природа этого диффузионного каркаса служит превосходной основой для задач VLA, естественным образом подходя для группировки действий и параллельной генерации, что приводит к значительно более быстрой сходимости при дообучении. Dream-VLA достигает наилучших показателей: 97.2% среднего уровня успешности на LIBERO, 71.4% общего среднего на SimplerEnv-Bridge и 60.5% общего среднего на SimplerEnv-Fractal, превосходя ведущие модели, такие как π_0 и GR00T-N1. Мы также подтверждаем, что dVLM превосходят AR-базлы на downstream-задачах при различных целевых функциях обучения. Мы публикуем Dream-VL и Dream-VLA для содействия дальнейшим исследованиям в сообществе.
Модели диффузионных трансформеров значительно продвинули редактирование изображений, кодируя условные изображения и интегрируя их в трансформерные слои. Однако большинство правок затрагивают лишь небольшие области, тогда как современные методы единообразно обрабатывают и удаляют шум со всех токенов на каждом временном шаге, что приводит к избыточным вычислениям и потенциальной деградации неизмененных участков. Это поднимает фундаментальный вопрос: действительно ли необходимо регенерировать каждую область при редактировании? Для решения этой проблемы мы предлагаем SpotEdit — не требующий обучения фреймворк для диффузионного редактирования, который выборочно обновляет только измененные области. SpotEdit состоит из двух ключевых компонентов: SpotSelector идентифицирует стабильные области через перцептивное сходство и пропускает их вычисления, повторно используя признаки условного изображения; SpotFusion адаптивно объединяет эти признаки с отредактированными токенами посредством механизма динамического слияния, сохраняя контекстную согласованность и качество редактирования. Благодаря сокращению ненужных вычислений и сохранению высокой точности в неизмененных областях, SpotEdit обеспечивает эффективное и точное редактирование изображений.
Текстовый кодировщик является ключевым компонентом диффузионных моделей для генерации изображений и видео по тексту, фундаментально определяя семантическую точность генерируемого контента. Однако его развитие сдерживается двумя основными проблемами: отсутствием эффективной системы оценки, достоверно предсказывающей результаты генерации, и сложностью адаптации предобученных языковых моделей для визуального синтеза. Для решения этих задач мы представляем GRAN-TED — парадигму генерации робастных, согласованных и нюансированных текстовых эмбеддингов для диффузионных моделей. Наш вклад двунаправлен. Во-первых, мы предлагаем TED-6K — новый текстовый бенчмарк, позволяющий проводить эффективную и надежную оценку репрезентационного качества кодировщика без затратного сквозного обучения моделей. Мы демонстрируем, что производительность на TED-6K, стандартизированная с помощью легковесного унифицированного адаптера, сильно коррелирует с эффективностью кодировщика в задачах генерации. Примечательно, что в нашей экспериментальной setup оценка с помощью TED-6K примерно в 750 раз быстрее, чем обучение диффузионной модели с нуля. Во-вторых, руководствуясь этой проверенной framework, мы разрабатываем усовершенствованный текстовый кодировщик с использованием новой двухэтапной парадигмы обучения. Этот процесс включает первоначальное тонкое обучение на мультимодальной большой языковой модели для улучшения визуальной репрезентации с последующим применением послойного взвешивания для извлечения более детализированных и эффективных текстовых признаков. Наши эксперименты показывают, что полученный кодировщик GRAN-TED не только достигает state-of-the-art результатов на TED-6K, но и обеспечивает значительный прирост производительности в генерации изображений и видео по тексту. Наши датасет TED-6K и код оценки доступны по ссылке: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
Задание манипуляционных задач для роботов в форме, которая одновременно является выразительной и точной, остается ключевой проблемой. Хотя визуальные цели предоставляют компактное и однозначное описание задачи, существующие политики, обусловленные целью, часто сталкиваются с трудностями при манипуляциях на длительном горизонте из-за их зависимости от предсказания действий на один шаг без явного моделирования прогресса задачи. Мы предлагаем Act2Goal — общую политику манипуляций, обусловленную целью, которая интегрирует визуальную модель мира, обусловленную целью, с многоуровневым временны́м контролем. При наличии текущего наблюдения и целевого визуального состояния модель мира генерирует правдоподобную последовательность промежуточных визуальных состояний, отражающую структуру длительного горизонта. Для преобразования этого визуального плана в надежное исполнение мы представляем Многоуровневое Временное Хеширование (MSTH), которое разлагает воображаемую траекторию на плотные проксимальные кадры для детерминированного замкнутого управления и разреженные дистальные кадры, которые фиксируют глобальную согласованность задачи. Политика связывает эти представления с моторным управлением посредством сквозной перекрестной внимательности, обеспечивая согласованное поведение на длительном горизонте, оставаясь при этом реактивной к локальным возмущениям. Act2Goal демонстрирует высокую способность к обобщению "с нуля" для новых объектов, пространственных конфигураций и сред. Мы также обеспечиваем адаптацию в режиме онлайн без вознаграждения посредством перемаркировки целей по факту с тонкой настройкой на основе LoRA, что позволяет быстро улучшать результаты автономно без внешнего контроля. Эксперименты на реальном роботе показывают, что Act2Goal повышает процент успешного выполнения с 30% до 90% для сложных задач, выходящих за пределы распределения данных, в течение минут автономного взаимодействия, подтверждая, что обусловленные целью модели мира с многоуровневым временны́м контролем обеспечивают структурированное руководство, необходимое для надежной манипуляции на длительном горизонте. Страница проекта: https://act2goal.github.io/
Языковым агентам все чаще требуются устойчивые миры, в которых они могут действовать, запоминать и обучаться. Существующие подходы находятся на двух полюсах: традиционные веб-фреймворки предоставляют надежные, но фиксированные контексты, основанные на базах данных, в то время как полностью генеративные модели мира стремятся к неограниченным средам за счет управляемости и практической реализуемости. В данной работе мы представляем Веб-Модель Мира (Web World Model, WWM) — промежуточный подход, в котором состояние мира и его «физика» реализованы в стандартном веб-коде для обеспечения логической согласованности, а большие языковые модели генерируют контекст, нарративы и стратегические решения на основе этого структурированного латентного состояния. Мы создали набор WWM на реалистичном веб-стеке, включая бесконечный атлас путешествий, основанный на реальной географии, вымышленных исследователей галактик, веб-масштабные энциклопедические и нарративные миры, а также среды, подобные симуляциям и играм. На примере этих систем мы выявили практические принципы проектирования WWM: разделение правил, задаваемых кодом, и моделируемого воображения, представление латентного состояния в виде типизированных веб-интерфейсов и использование детерминированной генерации для достижения неограниченного, но структурированного исследования. Наши результаты позволяют предположить, что сами веб-стеки могут служить масштабируемой основой для моделей мира, обеспечивая управляемые, но открытые среды. Страница проекта: https://github.com/Princeton-AI2-Lab/Web-World-Models.
Диффузионные языковые модели (dLLM) стали перспективной альтернативой авторегрессионным (AR) моделям. Хотя недавние исследования подтвердили их потенциал предварительного обучения и ускорили вывод, область пост-обучения для dLLM остается недостаточно развитой. Существующие методы страдают от вычислительной неэффективности и несоответствия целей между обучением и выводом, что серьезно ограничивает производительность на сложных задачах логического рассуждения, таких как математика. Для решения этой проблемы мы представляем DiRL — эффективную структуру пост-обучения, которая тесно интегрирует блочное обучение с ускорением через FlexAttention с оптимизированным выводом от LMDeploy. Эта архитектура обеспечивает оптимизированный цикл онлайн-обновления модели, способствуя эффективному двухэтапному пост-обучению (контролируемое тонкое настройка с последующим обучением с подкреплением). На основе этой структуры мы предлагаем DiPO — первую несмещенную реализацию оптимизации групповой относительной политики (GRPO), адаптированную для dLLM. Мы проверяем наш подход, обучив модель DiRL-8B-Instruct на высококачественных математических данных. Наша модель демонстрирует наилучшие математические результаты среди dLLM и превосходит сопоставимые модели серии Qwen2.5 по нескольким тестовым наборам.
Искусственные интеллекты-научные сотрудники появляются как инструмент для помощи исследователям в достижении их научных целей. Ключевой особенностью таких ИИ-сотрудников является способность генерировать план исследований на основе заданных целей и ограничений. Этот план может использоваться исследователями для мозгового штурма или даже быть реализован после дальнейшей доработки. Однако современные языковые модели пока с трудом создают исследовательские планы, полностью соответствующие всем ограничениям и неявным требованиям. В данной работе мы исследуем, как использовать обширный корпус существующих научных статей для обучения языковых моделей, генерирующих более качественные исследовательские планы. Мы создаем масштабируемый, разнообразный обучающий корпус путем автоматического извлечения исследовательских целей и предметно-ориентированных оценочных критериев из статей различных областей. Затем мы обучаем модели для генерации исследовательских планов с помощью обучения с подкреплением и самооценки. Замороженная копия исходной политики выступает в роли оценщика во время обучения, а критерии создают разрыв между генератором и верификатором, что позволяет добиваться улучшений без внешнего человеческого контроля. Для проверки этого подхода мы провели исследование с участием экспертов по целям машинного обучения, общее время которого составило 225 часов. Эксперты предпочли планы, сгенерированные нашей дообученной моделью Qwen3-30B-A3B, планам исходной модели для 70% исследовательских целей и одобрили 84% автоматически извлеченных предметно-ориентированных оценочных критериев. Для оценки общности подхода мы также распространили его на исследовательские цели из медицинских статей и новых препринтов arXiv, проведя оценку с помощью жюри из фронтирных моделей. Наше дообучение дает относительное улучшение на 12-22% и значительную междисциплинарную генерализацию, демонстрируя эффективность даже в таких областях, как медицинские исследования, где обратная связь по выполнению недоступна. В совокупности эти результаты демонстрируют потенциал масштабируемого автоматизированного подхода к обучению как шага на пути к улучшению общих ИИ-научных сотрудников.
Эволюция автономных агентов переопределяет процесс поиска информации, осуществляя переход от пассивного извлечения к проактивному веб-исследованию открытого типа. Однако, хотя текстовые и статические мультимодальные агенты демонстрируют быстрый прогресс, сохраняется значительный разрыв в обработке наиболее динамичной модальности веба — видео. Существующие видео-бенчмарки в основном сосредоточены на пассивном восприятии, предоставляя моделям отобранные фрагменты без необходимости внешнего поиска. Они не оценивают агентское видео-исследование, которое требует активного анализа временных линий видео, перекрестной проверки разрозненных данных и верификации утверждений в условиях открытого веба. Чтобы заполнить этот пробел, мы представляем Video-BrowseComp — сложный бенчмарк, содержащий 210 вопросов, разработанных для агентского видеомышления в открытом вебе. В отличие от предыдущих бенчмарков, Video-BrowseComp предусматривает обязательную зависимость от временных визуальных данных, гарантируя, что ответы не могут быть получены исключительно через текстовый поиск, а требуют навигации по временным линиям видео для проверки внешних утверждений. Наша оценка современных моделей выявляет ключевое узкое место: даже продвинутые модели с расширенным поиском, такие как GPT-5.1 (с поиском), достигают точности лишь 15,24%. Наш анализ показывает, что эти модели в значительной степени полагаются на текстовые прокси, преуспевая в доменах с богатыми метаданными (например, телешоу с описанием сюжета), но терпят неудачу в средах с бедными метаданными и высокой динамикой (например, спорт, геймплей), где essential визуальное заземление. Как первый бенчмарк для видео-исследований в открытом вебе, Video-BrowseComp продвигает область от пассивного восприятия к проактивному видеомышлению.
В большинстве существующих задач навигации в физическом мире инструкции являются четкими и однозначными, например, следование инструкциям и поиск объектов. В этой идеализированной постановке от агентов требуется лишь вырабатывать эффективные навигационные действия на основе визуальных и языковых входных данных. Однако в реальном мире навигационные инструкции часто бывают размытыми и неоднозначными, что требует от агента разрешения неопределенности и вывода о намерениях пользователя посредством активного диалога. Чтобы восполнить этот пробел, мы предлагаем задачу Интерактивной навигации к конкретному объекту (Interactive Instance Object Navigation, IION), которая требует от агентов не только генерировать навигационные действия, но и производить языковые выходы через активный диалог, что больше соответствует практическим сценариям. IION расширяет задачу навигации к конкретному объекту (Instance Object Navigation, ION), позволяя агентам свободно консультироваться с оракулом на естественном языке во время навигации. Основываясь на этой задаче, мы представляем бенчмарк Vision Language-Language Navigation (VL-LN), который предоставляет крупномасштабный автоматически сгенерированный набор данных и комплексный протокол оценки для обучения и тестирования навигационных моделей с поддержкой диалога. VL-LN включает более 41 тыс. траекторий с расширенными диалогами для длительного горизонта для обучения и автоматический протокол оценки с оракулом, способным отвечать на запросы агента. Используя этот бенчмарк, мы обучили навигационную модель, оснащенную диалоговыми возможностями, и показали, что она достигает значительного улучшения по сравнению с базовыми методами. Многочисленные эксперименты и анализ дополнительно демонстрируют эффективность и надежность VL-LN для продвижения исследований в области навигации с поддержкой диалога. Код и набор данных: https://0309hws.github.io/VL-LN.github.io/
Омнимодальные большие языковые модели достигли значительного прогресса в объединении аудиальной и визуальной модальностей, однако им часто не хватает детального кросс-модального понимания, и они испытывают трудности с мультимодальным выравниванием. Для преодоления этих ограничений мы представляем OmniAgent — полностью аудиоуправляемого агента активного восприятия, который динамически оркестрирует специализированные инструменты для достижения более детального аудиовизуального мышления. В отличие от предыдущих работ, основанных на жёстких статических workflow и плотном описании кадров, данная статья демонстрирует смену парадигмы от пассивного генерации ответов к активному мультимодальному исследованию. OmniAgent использует динамическое планирование для автономной оркестровки вызова инструментов по требованию, стратегически концентрируя перцептивное внимание на релевантных для задачи сигналах. Ключевым элементом нашего подхода является новая парадигма аудиоуправляемого восприятия от грубого к точному, которая использует аудиоподсказки для локализации временных событий и направления последующего логического вывода. Обширные эмпирические оценки на трёх benchmarks понимания аудиовидео демонстрируют, что OmniAgent достигает наилучших результатов, превосходя ведущие открытые и проприетарные модели с существенным отрывом в 10–20% по точности.
Агенты поиска информации демонстрируют высокую производительность в широком спектре задач поиска различной глубины и широты охвата, однако использование ими инструментов по-прежнему в основном ограничивается извлечением сниппетов через API и загрузкой страниц по URL-адресам, что сужает доступ к более богатой информации, доступной при реальном веб-сёрфинге. Хотя полное взаимодействие с браузером могло бы раскрыть более глубокие возможности, его детализированное управление и возврат объёмного контента страниц создают значительную сложность для агентов, работающих в стиле ReAct с вызовом функций. Для преодоления этого разрыва мы предлагаем Nested Browser-Use Learning (NestBrowse) — минималистичную и завершённую систему браузерных действий, которая разделяет управление взаимодействием и исследование страниц с помощью вложенной структуры. Данная архитектура упрощает агентское планирование, одновременно обеспечивая эффективное получение информации из глубины сети. Эмпирические результаты на сложных бенчмарках глубинного поиска информации показывают, что NestBrowse даёт явные практические преимущества. Детальный анализ дополнительно подчёркивает его эффективность и гибкость.
Существующие методы обнаружения объектов в реальном времени (RTOD) обычно используют архитектуры, подобные YOLO, благодаря их благоприятному балансу между точностью и скоростью. Однако эти модели основаны на статичных плотных вычислениях, которые применяют единообразную обработку ко всем входным данным, что приводит к нерациональному распределению репрезентационной мощности и вычислительных ресурсов. Например, ресурсы избыточно выделяются для простых сцен и недостаточно — для сложных. Это несоответствие приводит как к вычислительной избыточности, так и к неоптимальной производительности обнаружения. Для преодоления этого ограничения мы предлагаем YOLO-Master — новую архитектуру, подобную YOLO, которая вводит условно-адаптивные вычисления для каждого экземпляра в RTOD. Это достигается с помощью блока эффективной разреженной смеси экспертов (ES-MoE), который динамически распределяет вычислительные ресурсы для каждого входного изображения в зависимости от сложности сцены. В основе лежит легковесная динамическая маршрутизирующая сеть, которая направляет специализацию экспертов во время обучения с помощью целевой функции, повышающей разнообразие, что способствует формированию комплементарных экспертных знаний. Кроме того, маршрутизирующая сеть адаптивно обучается активировать только наиболее релевантных экспертов, тем самым повышая производительность обнаружения при минимизации вычислительных затрат на этапе inference. Всесторонние эксперименты на пяти крупномасштабных бенчмарках демонстрируют превосходство YOLO-Master. На MS COCO наша модель достигает 42.4% AP с задержкой 1.62 мс, превосходя YOLOv13-N на +0.8% mAP при ускорении inference на 17.8%. Примечательно, что наибольший выигрыш наблюдается на сложных сценах с плотными объектами, в то время как модель сохраняет эффективность на типичных входных данных и поддерживает скорость работы в реальном времени. Код будет доступен.
Нехватка данных остается фундаментальным барьером на пути к созданию полностью автономных хирургических роботов. В то время как крупномасштабные модели "видение-язык-действие" (VLA) продемонстрировали впечатляющую способность к обобщению в задачах манипулирования в бытовой и промышленной средах, используя парные данные видео и действий из различных областей, хирургическая робототехника страдает от недостатка наборов данных, включающих как визуальные наблюдения, так и точную кинематику робота. В отличие от этого, существуют обширные корпусы хирургических видео, но им не хватает соответствующих меток действий, что препятствует прямому применению обучения с подражанием или обучению VLA-моделей. В данной работе мы стремимся смягчить эту проблему, обучая модели политик на основе SurgWorld, модельного мира, созданного для физического ИИ в хирургии. Мы подготовили набор данных SATA с детальными описаниями действий, специально предназначенный для хирургических роботов. Затем мы построили SurgeWorld на основе самой передовой модели физического ИИ и набора SATA. Эта система способна генерировать разнообразные, обобщаемые и реалистичные хирургические видео. Мы также первыми применили модель обратной динамики для вывода псевдокинематики из синтетических хирургических видео, создавая синтетические парные данные "видео-действие". Мы показываем, что хирургическая VLA-политика, обученная с использованием этих дополненных данных, значительно превосходит модели, обученные только на реальных демонстрациях, на реальной платформе хирургического робота. Наш подход предлагает масштабируемый путь к автономному приобретению хирургических навыков за счет использования обилия немаркированных хирургических видео и генеративного модельного мира, открывая thus дверь для обобщаемых и эффективных по данным политик хирургических роботов.
Распространение больших языковых моделей (LLM) стимулировало переход к автономным агентам, способным к сложным рассуждениям и использованию инструментов. Однако современные архитектуры агентов часто строятся с использованием императивных, ad hoc подходов. Это приводит к созданию хрупких систем, страдающих от проблем с управлением состоянием, обработкой ошибок и параллелизмом. В данной статье представлена инженерия монадических контекстов (Monadic Context Engineering, MCE) — новая архитектурная парадигма, использующая алгебраические структуры функторов, аппликативных функторов и монад для создания формального фундамента проектирования агентов. MCE рассматривает рабочие процессы агентов как вычислительные контексты, в которых сквозные аспекты, такие как распространение состояния, обработка ошибок с прерыванием и асинхронное выполнение, управляются внутренне через алгебраические свойства абстракции. Мы демонстрируем, как монады обеспечивают надежную последовательную композицию, как аппликативные функторы предоставляют принципиальную структуру для параллельного выполнения и, что ключевое, как монадические трансформеры позволяют системно комбинировать эти возможности. Такой многоуровневый подход позволяет разработчикам строить сложных, устойчивых и эффективных ИИ-агентов из простых, независимо верифицируемых компонентов. Мы также расширяем эту структуру для описания Мета-агентов, которые используют MCE для генеративной оркестровки, динамически создавая и управляя рабочими процессами под-агентов через метапрограммирование. Страница проекта: https://github.com/yifanzhang-pro/monadic-context-engineering.
Агентные системы на основе языковых моделей (ЯМ) лежат в основе современных приложений, таких как "Deep Research" и "Claude Code", и используют мульти-ЯМ архитектуры для преодоления ограничений контекста. За кажущимся разнообразием скрывается повторяющаяся схема: меньшие по размеру ЯМ-«компрессоры» (которые могут работать даже локально) преобразуют исходный контекст в компактный текст, который затем обрабатывается более крупными ЯМ-«предикторами». Несмотря на их популярность, проектирование систем компрессор-предиктор остается в значительной степени эмпирическим, с отсутствием четких рекомендаций о том, как выбор компрессора и предиктора влияет на итоговую производительность. На практике для определения вклада сжатия по сравнению с предсказанием требуются дорогостоящие попарные переборы для каждой конкретной задачи. Мы утверждаем, что эти вопросы проектирования агентных систем по своей сути являются информационно-теоретическими. Рассматривая ЯМ-компрессор как зашумленный канал, мы вводим простой оценщик взаимной информации между контекстом и его сжатием, чтобы количественно оценить качество сжатия независимо от задачи. Мы показываем, что взаимная информация является сильным предиктором итоговой производительности, независимо от конкретной задачи. Используя информационно-теоретическую основу, мы проводим комплексный эмпирический анализ на пяти наборах данных и для трех семейств моделей. Результаты показывают, что более крупные компрессоры не только точнее, но и эффективнее по использованию токенов, передавая больше битов информации на токен. Например, компрессор Qwen-2.5 с 7B параметрами в 1.6 раза точнее, в 4.6 раза лаконичнее и передает в 5.5 раз больше битов взаимной информации на токен по сравнению со своей версией на 1.5B параметров. Для различных наборов данных масштабирование компрессоров оказывается существенно эффективнее, чем масштабирование предикторов, что позволяет использовать более крупные локальные компрессоры в паре с меньшими облачными предикторами. Применение этих принципов к системе Deep Research позволяет локальным компрессорам всего с 3B параметров достигать 99% точности передовых ЯМ при 26% стоимости API-вызовов.
Последние достижения в области компьютерного зрения позволили успешно распространить сегментацию с открытым словарем (Open-vocabulary segmentation, OVS) на трёхмерную область благодаря использованию метода трёхмерного гауссовского разбрызгивания (3D-GS). Несмотря на этот прогресс, эффективный рендеринг высокоразмерных признаков, необходимых для запросов с открытым словарем, остаётся серьёзной проблемой. Существующие методы используют кодбуки или сжатие признаков, что приводит к потере информации и, как следствие, к снижению качества сегментации. Для решения этой проблемы мы представляем Quantile Rendering (Q-Render) — новую стратегию рендеринга для 3D-гауссовских функций, которая эффективно работает с высокоразмерными признаками, сохраняя высокую точность. В отличие от традиционного объёмного рендеринга, который плотно семплирует все 3D-гауссовские функции, пересекаемые каждым лучом, Q-Render разреженно семплирует только те из них, которые оказывают доминирующее влияние вдоль луча. Интегрировав Q-Render в обобщающую трёхмерную нейронную сеть, мы также предлагаем Gaussian Splatting Network (GS-Net), которая предсказывает признаки гауссовских функций обобщающим образом. Многочисленные эксперименты на наборах данных ScanNet и LeRF показывают, что наш подход превосходит современные методы, обеспечивая при этом рендеринг в реальном времени с приблизительным ускорением в ~43.7 раза для карт признаков размерностью 512. Код будет общедоступен.
Основным препятствием для применения обучения с подкреплением (RL) в реальной робототехнике является проектирование эффективных функций вознаграждения. Хотя недавно появившиеся основанные на обучении процессные модели вознаграждения (PRM) являются многообещающим направлением, они часто сталкиваются с двумя фундаментальными ограничениями: их моделям вознаграждения не хватает пошагового понимания и они полагаются на восприятие с одного ракурса, что приводит к ненадежной оценке прогресса в тонких манипуляциях; и их процедуры формирования вознаграждения теоретически необоснованны, часто вызывая семантическую ловушку, которая вводит оптимизацию политики в заблуждение. Для решения этих проблем мы представляем Dopamine-Reward — новый метод моделирования вознаграждения для обучения универсальной, пошаговой процессной модели вознаграждения на основе мульти-ракурсных входных данных. В его основе лежит наша Общая Модель Вознаграждения (GRM), обученная на обширном наборе данных объемом более 3400 часов, которая использует Пошаговую Дискретизацию Вознаграждения для структурного понимания и Слияние Вознаграждений с Множественных Перспектив для преодоления перцептивных ограничений. На базе Dopamine-Reward мы предлагаем Dopamine-RL, надежную систему обучения политикам, которая использует теоретически обоснованный метод Формирования Вознаграждения, Инвариантного к Политике. Это позволяет агенту использовать плотные вознаграждения для эффективного самоусовершенствования без изменения оптимальной политики, тем самым фундаментально избегая семантической ловушки. Многочисленные эксперименты на различных задачах в симуляции и реальном мире подтверждают эффективность нашего подхода. GRM достигает высочайшей точности в оценке вознаграждения, а Dopamine-RL, построенный на основе GRM, значительно повышает эффективность обучения политикам. Например, после адаптации GRM к новой задаче одношаговым способом на основе единственной экспертной траектории, полученная модель вознаграждения позволяет Dopamine-RL улучшить политику с почти нулевого уровня до 95% успешности всего за 150 онлайн-эпизодов (приблизительно 1 час взаимодействия с реальным роботом), сохраняя при этом высокую обобщающую способность across tasks. Сайт проекта: https://robo-dopamine.github.io
Быстрая эволюция генеративных моделей привела к постоянному появлению мультимодальных рисков безопасности, выявив ограничения существующих методов защиты. Для решения этих проблем мы предлагаем ProGuard — проактивную систему защиты для визуально-текстовых данных, которая идентифицирует и описывает риски безопасности вне распределения (OOD) без необходимости корректировки моделей, требуемой традиционными реактивными подходами. Сначала мы создали сбалансированный по модальностям набор данных из 87 тыс. образцов, каждый из которых аннотирован бинарными метками безопасности и категориями рисков в соответствии с иерархической мультимодальной таксономией безопасности, что эффективно снижает смещение модальностей и обеспечивает согласованную модерацию для текстовых, визуальных и текстово-визуальных входных данных. На основе этого набора данных мы обучаем нашу базовую визуально-текстовую модель исключительно с помощью обучения с подкреплением (RL) для достижения эффективного и лаконичного логического вывода. Для аппроксимации проактивных сценариев безопасности в контролируемых условиях мы дополнительно вводим задачу вывода категорий OOD-рисков и расширяем RL-целевой функцией вознаграждение на основе синонимического банка, которое побуждает модель генерировать лаконичные описания для неизвестных небезопасных категорий. Результаты экспериментов показывают, что ProGuard демонстрирует производительность, сопоставимую с закрытыми большими моделями в бинарной классификации безопасности, и значительно превосходит существующие модели-защитники с открытым исходным кодом в категоризации небезопасного контента. Наиболее важно, что ProGuard обеспечивает высокую проактивную способность модерации, улучшая обнаружение OOD-рисков на 52,6% и их описание на 64,8%.
Существующие системы создания видео на основе искусственного интеллекта обычно рассматривают написание сценария и дизайн ключевых кадров как две независимые задачи: первая опирается на большие языковые модели, а вторая — на модели генерации изображений. Мы полагаем, что эти две задачи следует объединить в рамках единой системы, поскольку логическое рассуждение и образное мышление являются фундаментальными качествами кинорежиссера. В данной работе мы предлагаем UniMAGE, унифицированную режиссерскую модель, которая связывает пользовательские промпты со структурированными сценариями, позволяя неспециалистам создавать фильмы с длинным контекстом и множеством кадров, используя существующие модели генерации аудио и видео. Для этого мы применяем архитектуру Mixture-of-Transformers, которая унифицирует генерацию текста и изображений. Чтобы дополнительно улучшить логику повествования и согласованность ключевых кадров, мы вводим парадигму обучения «сначала переплетение, затем разделение». А именно, сначала мы выполняем переплетенное концептуальное обучение, которое использует переплетенные текстово-визуальные данные для углубленного понимания моделью сценария и его образной интерпретации. Затем мы проводим раздельное эксперное обучение, которое разъединяет написание сценария и генерацию ключевых кадров, обеспечивая большую гибкость и творческий подход в повествовании. Многочисленные эксперименты демонстрируют, что UniMAGE достигает передовых результатов среди моделей с открытым исходным кодом, генерируя логически связные видеосценарии и визуально согласованные изображения ключевых кадров.
Реализация портретной анимации в реальном времени крайне важна для интерактивных приложений, таких как виртуальные ассистенты и живые аватары, и требует высокой визуальной достоверности, временной согласованности, сверхнизкой задержки и отзывчивого управления на основе динамических входных данных, таких как эталонные изображения и управляющие сигналы. Хотя диффузионные модели обеспечивают высокое качество, их некаузальная природа препятствует использованию в потоковом режиме. Каузальные авторегрессионные методы генерации видео позволяют эффективно генерировать кадры последовательно, но страдают от накопления ошибок, разрывов движения на границах сегментов и ухудшения долгосрочной согласованности. В данной работе мы представляем новую потоковую архитектуру под названием Knot Forcing для портретной анимации в реальном времени, которая решает эти проблемы за счет трех ключевых решений: (1) стратегия генерации сегментами с глобальным сохранением идентичности через кэшированные KV-состояния эталонного изображения и локальным временным моделированием с использованием механизма внимания со скользящим окном; (2) временной узел, который перекрывает соседние сегменты и передает пространственно-временные сигналы через кондиционирование "изображение-видео" для сглаживания переходов движения между сегментами; и (3) механизм "опережающего бега", который динамически обновляет временную координату эталонного кадра в процессе вывода, удерживая его семантический контекст впереди текущего генерируемого кадра для поддержания долгосрочной согласованности. Knot Forcing обеспечивает высококачественную, временно согласованную и интерактивную портретную анимацию на бесконечных последовательностях, достигая производительности в реальном времени с высокой визуальной стабильностью на потребительских графических процессорах.
Оценка производительности различных архитектур моделей, таких как трансформеры, большие языковые модели (LLM) и другие системы обработки естественного языка (NLP), требует комплексных бенчмарков, измеряющих результаты по множеству параметров. Среди них оценка понимания естественного языка (NLU) является особенно важной, поскольку служит фундаментальным критерием для оценки возможностей моделей. Таким образом, необходимо создание бенчмарков, позволяющих проводить всестороннюю оценку и анализ способностей к NLU с различных точек зрения. В то время как бенчмарк GLUE установил стандарт для оценки английского NLU, для других языков были разработаны аналогичные бенчмарки, такие как CLUE для китайского, FLUE для французского и JGLUE для японского. Однако для турецкого языка на данный момент не существует сопоставимого бенчмарка. Чтобы заполнить этот пробел, мы представляем TrGLUE — комплексный бенчмарк, охватывающий разнообразные задачи NLU для турецкого языка. Дополнительно мы представляем SentiTurca, специализированный бенчмарк для анализа тональности. Для поддержки исследователей мы также предоставляем код для тонкой настройки и оценки моделей на основе трансформеров, облегчая эффективное использование этих бенчмарков. TrGLUE включает в себя корпуса на турецком языке, отобранные так, чтобы отражать домены и постановки задач в стиле GLUE, с разметкой, полученной с помощью полуавтоматического конвейера, сочетающего мощную аннотацию на основе LLM, проверку согласованности между моделями и последующую валидацию человеком. Такой подход prioritizes лингвистическую естественность, минимизирует артефакты прямого перевода и обеспечивает масштабируемый, воспроизводимый рабочий процесс. С помощью TrGLUE мы стремимся создать надежную систему оценки для турецкого NLU, предоставить исследователям ценные ресурсы и дать практические рекомендации по созданию высококачественных полуавтоматических наборов данных.
Обеспечение высокой скорости и эффективности обучения и вывода рекомендательных моделей глубокого обучения (DLRM) является важной задачей. Однако это порождает три ключевые системные проблемы: разнообразие архитектур моделей, разнообразие ядерных примитивов, а также неоднородность поколений и архитектур аппаратного обеспечения. В данной статье представлен KernelEvolve — агентный фреймворк для программирования ядер, предназначенный для решения проблемы неоднородности в масштабе для DLRM. KernelEvolve разработан для приема спецификаций ядер на вход и автоматизации процесса генерации и оптимизации ядер для рекомендательных моделей на различных гетерогенных аппаратных архитектурах. Это достигается за счет работы на нескольких уровнях программных абстракций — от предметно-ориентированных языков (DSL) Triton и CuTe до низкоуровневых аппаратно-независимых языков, охватывая весь стек оптимизации программно-аппаратного обеспечения. Процесс оптимизации ядер описывается как графовый поиск с политикой выбора, универсальным оператором, функцией пригодности и правилом остановки, который динамически адаптируется к контексту выполнения во время работы через синтез промптов, дополненный поиском. Мы разработали, реализовали и внедрили KernelEvolve для оптимизации широкого спектра промышленных рекомендательных моделей на различных поколениях GPU NVIDIA и AMD, а также на AI-ускорителях Meta. Мы проверили работу KernelEvolve на общедоступном наборе тестов KernelBench, достигнув 100% прохождения всех 250 задач трех уровней сложности и 160 операторов PyTorch ATen на трех гетерогенных аппаратных платформах, что демонстрирует 100% корректность. KernelEvolve сокращает время разработки с недель до часов и обеспечивает значительное повышение производительности по сравнению с базовыми реализациями PyTorch в разнообразных промышленных сценариях использования и для масштабных гетерогенных AI-систем. Помимо улучшения эффективности производительности, KernelEvolve существенно снижает порог программируемости для нового AI-оборудования, обеспечивая автоматическую генерацию ядер для внутренне разрабатываемых AI-ускорителей.
Мы представляем Self-Evaluating Model (Self-E) — новый подход к обучению генерации изображений по тексту «с нуля», поддерживающий вывод за любое количество шагов. Self-E обучается на данных аналогично модели Flow Matching, одновременно используя новый механизм самооценки: она оценивает собственные сгенерированные примеры с помощью текущих оценок скоринга, эффективно выступая в роли динамического самообучателя. В отличие от традиционных диффузионных моделей или моделей потоков, она не полагается исключительно на локальный надзор, который обычно требует множества шагов вывода. В отличие от подходов на основе дистилляции, она не нуждается в предварительно обученном учителе. Эта комбинация мгновенного локального обучения и самодостаточного глобального согласования устраняет разрыв между двумя парадигмами, позволяя обучать высококачественную тексто-визуальную модель с нуля, которая превосходит даже при очень малом количестве шагов. Масштабные эксперименты на крупных бенчмарках генерации по тексту показывают, что Self-E не только преуспевает в генерации за несколько шагов, но и конкурирует с передовыми моделями Flow Matching при 50 шагах. Мы также обнаружили, что её производительность монотонно улучшается с увеличением числа шагов вывода, что позволяет осуществлять как сверхбыструю генерацию за несколько шагов, так и высококачественную выборку по длинной траектории в рамках единой унифицированной модели. Насколько нам известно, Self-E является первой тексто-визуальной моделью «с нуля» с произвольным количеством шагов, предлагающей унифицированную framework для эффективной и масштабируемой генерации.
Мы представляем неожиданный вывод: способности языковой модели к рассуждению можно улучшить, обучая ее на синтетических наборах данных с цепочками мыслей (CoT) от более мощных моделей, даже когда все эти цепочки приводят к неверному окончательному ответу. Наши эксперименты показывают, что такой подход может обеспечить лучшие результаты в задачах на рассуждения по сравнению с обучением на аннотированных человеком наборах данных. Мы выдвигаем гипотезу, что это явление объясняется двумя ключевыми факторами: во-первых, распределение синтетических данных по своей природе ближе к собственному распределению языковой модели, что облегчает их усвоение. Во-вторых, эти «некорректные» цепочки часто лишь частично ошибочны и содержат валидные шаги рассуждений, из которых модель может извлечь пользу. Для дальнейшей проверки первой гипотезы мы используем языковую модель для парафраза аннотированных человеком цепочек — смещая их распределение ближе к собственному распределению модели — и показываем, что это улучшает результаты. Для второй гипотезы мы вводим цепочки CoT с нарастающим уровнем ошибок и исследуем, в какой степени модели толерантны к этим недостаткам. Мы демонстрируем наши выводы в различных областях рассуждений, таких как математика, алгоритмические задачи и генерация кода, используя наборы данных MATH, GSM8K, Countdown и MBPP на различных языковых моделях (от 1.5B до 9B параметров) из семейств Qwen, Llama и Gemma. Наше исследование показывает, что курирование наборов данных, более близких к распределению модели, является критически важным аспектом. Мы также демонстрируем, что корректный окончательный ответ не всегда является надежным индикатором достоверного процесса рассуждений.
Современные диффузионные модели для генерации изображений по тексту демонстрируют впечатляющие возможности создания реалистичных лицевых изображений, управляемых текстовыми описаниями и идентичностью человека, что позволяет создавать персонализированные изображения лиц. Однако существующие методы на основе промптов для удаления или модификации идентификационных характеристик либо требуют, чтобы объект был хорошо представлен в предварительно обученной модели, либо предполагают дообучение модели для конкретных идентичностей. В данной работе мы анализируем процесс генерации идентичности и предлагаем фреймворк обратной персонализации для анонимизации лиц. Наш подход использует метод условной инверсии диффузии, позволяя напрямую манипулировать изображениями без применения текстовых промптов. Для обобщения на объекты, отсутствующие в обучающих данных модели, мы интегрируем управляемый идентичностью блок conditioning. В отличие от предыдущих методов анонимизации, не обеспечивающих контроля над лицевыми атрибутами, наш фреймворк поддерживает атрибутивно-управляемую анонимизацию. Мы показываем, что наш метод достигает передового баланса между удалением идентичности, сохранением атрибутов и качеством изображения. Исходный код и данные доступны по адресу https://github.com/hanweikung/reverse-personalization.