Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем DeepSeek-V3.2 — модель, сочетающую высокую вычислительную эффективность с превосходными показателями в рассуждениях и агентской деятельности. Ключевые технические прорывы DeepSeek-V3.2 заключаются в следующем: (1) Разреженное внимание DeepSeek (DSA): мы представляем DSA — эффективный механизм внимания, который существенно снижает вычислительную сложность, сохраняя при этом производительность модели в сценариях с длинным контекстом. (2) Масштабируемая система обучения с подкреплением: благодаря внедрению надежного протокола обучения с подкреплением и масштабированию вычислений после обучения, DeepSeek-V3.2 демонстрирует результаты, сопоставимые с GPT-5. Примечательно, что наша высокопроизводительная версия DeepSeek-V3.2-Speciale превосходит GPT-5 и показывает уровень рассуждений наравне с Gemini-3.0-Pro, достигнув золотого уровня производительности как на Международной математической олимпиаде (IMO) 2025 года, так и на Международной олимпиаде по информатике (IOI). (3) Конвейер синтеза масштабных агентских задач: для интеграции рассуждений в сценарии использования инструментов мы разработали новый конвейер синтеза, который систематически генерирует обучающие данные в больших масштабах. Данная методология обеспечивает масштабируемое агентское обучение после основной тренировки, приводя к значительному улучшению обобщения и устойчивости к следованию инструкциям в сложных интерактивных средах.
Крупные языковые модели являются мощными универсальными системами, однако решение сложных и глубоких проблем, таких как задачи экзамена "Последний рубеж человечества" (HLE), остается как концептуально сложным, так и вычислительно затратным. Мы демонстрируем, что небольшие оркестраторы, управляющие другими моделями и разнообразными инструментами, могут как повысить верхнюю границу интеллектуальных возможностей, так и улучшить эффективность решения сложных агентских задач. Мы представляем ToolOrchestra — метод обучения небольших оркестраторов, координирующих работу интеллектуальных инструментов. ToolOrchestra явным образом использует обучение с подкреплением с учетом наград, ориентированных на результат, эффективность и предпочтения пользователя. С помощью ToolOrchestra мы создали Orchestrator — модель объемом 8 миллиардов параметров, которая достигает более высокой точности при меньшей стоимости по сравнению с предыдущими агентами, использующими инструменты, и при этом соответствует предпочтениям пользователя в выборе инструментов для конкретного запроса. На наборе HLE Orchestrator достигает результата в 37,1%, превосходя GPT-5 (35,1%), будучи при этом в 2,5 раза более эффективным. На наборах tau2-Bench и FRAMES Orchestrator значительно превосходит GPT-5, используя лишь около 30% вычислительных затрат. Обширный анализ показывает, что Orchestrator достигает наилучшего баланса между производительностью и стоимостью по множеству метрик и устойчиво обобщается на незнакомые инструменты. Эти результаты демонстрируют, что компоновка разнообразных инструментов с помощью легковесной модели-оркестратора является как более эффективной, так и более результативной по сравнению с существующими методами, прокладывая путь к практичным и масштабируемым системам рассуждений, усиленным инструментами.
Современные методы генерации видео преуспевают в создании однокадровых клипов, но испытывают трудности с генерацией повествовательных многокадровых видео, которые требуют гибкого расположения кадров, связного повествования и управляемости, выходящей за рамки текстовых промптов. Для решения этих задач мы предлагаем MultiShotMaster — фреймворк для высококонтролируемой генерации многокадрового видео. Мы расширяем предобученную однокадровую модель, интегрируя два новых варианта RoPE. Во-первых, мы представляем Multi-Shot Narrative RoPE, который применяет явный фазовый сдвиг на переходах между кадрами, обеспечивая гибкое расположение кадров при сохранении временного повествовательного порядка. Во-вторых, мы разрабатываем Spatiotemporal Position-Aware RoPE для включения референсных токенов и сигналов привязки, что позволяет осуществлять пространственно-временную инъекцию референсов. Кроме того, для преодоления нехватки данных мы создаем автоматизированный пайплайн аннотирования данных для извлечения многокадровых видео, описаний, межкадровых сигналов привязки и референсных изображений. Наш фреймворк использует внутренние архитектурные свойства для поддержки генерации многокадрового видео, обеспечивая текстовую согласованность между кадрами, кастомизированный объект с контролем движения и кастомизированную сцену на основе фона. Количество кадров и их продолжительность гибко настраиваются. Многочисленные эксперименты демонстрируют превосходную производительность и выдающуюся управляемость нашего фреймворка.
Мы представляем MG-Nav (Memory-Guided Navigation, навигация с управлением от памяти) — двухуровневую структуру для навигации с нулевым обучением, которая объединяет глобальное планирование на основе памяти с локальным управлением, усиленным геометрией. Её основой является Разреженный Граф Пространственной Памяти (SMG) — компактная, ориентированная на регионы память, где каждый узел агрегирует семантику многовидовых ключевых кадров и объектов, захватывая как внешний вид, так и пространственную структуру, сохраняя при этом разнообразие точек обзора. На глобальном уровне агент локализуется на SMG, и планируется узловой путь, обусловленный целью, с помощью гибридного поиска по изображению и экземпляру, что создает последовательность достижимых путевых точек для долгосрочного руководства. На локальном уровне базовая политика навигации выполняет эти путевые точки в режиме точечной цели с управлением, учитывающим препятствия, и переключается в режим целевого изображения при навигации от конечного узла к визуальной цели. Для дальнейшего улучшения выравнивания точек обзора и распознавания цели мы вводим VGGT-адаптер — легковесный геометрический модуль, построенный на предварительно обученной модели VGGT, который выравнивает признаки наблюдения и цели в общем 3D-ориентированном пространстве. MG-Nav выполняет глобальное планирование и локальное управление на разных частотах, используя периодическую повторную локализацию для коррекции ошибок. Эксперименты на бенчмарках HM3D Instance-Image-Goal и MP3D Image-Goal демонстрируют, что MG-Nav достигает передовой производительности при нулевом обучении и сохраняет устойчивость при динамических перестановках и в условиях незнакомых сцен.
В данной статье представлена DualCamCtrl — новая end-to-end диффузионная модель для генерации видео с управлением камерой. Современные работы продвинули эту область, представляя позы камеры в виде лучевых условий, однако зачастую им не хватает глубокого понимания сцены и геометрической осведомленности. DualCamCtrl целенаправленно устраняет этот недостаток за счет введения двухпоточной архитектуры, которая взаимно генерирует согласованные по камере последовательности RGB и глубины. Для гармонизации этих двух модальностей мы дополнительно предлагаем механизм семантически управляемого взаимного выравнивания (SIGMA), который выполняет слияние RGB и глубины семантически направленным и взаимно усиливающим образом. Данные решения в совокупности позволяют DualCamCtrl более эффективно разделять моделирование внешнего вида и геометрии, генерируя видео, которые точнее следуют заданным траекториям камеры. Кроме того, мы анализируем и выявляем различное влияние глубины и поз камеры на разных этапах денойзинга, а также демонстрируем, что ранние и поздние стадии играют взаимодополняющую роль в формировании глобальной структуры и детализации локальных элементов. Многочисленные эксперименты показывают, что DualCamCtrl обеспечивает более согласованную генерацию видео с управлением камерой, сокращая ошибки движения камеры более чем на 40% по сравнению с предыдущими методами. Страница проекта: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
Давно предполагалось, что саморазвитие искусственного интеллекта является путем к сверхразуму, когда модели автономно приобретают, совершенствуют и усваивают знания из собственного опыта обучения. Однако на практике неуправляемые саморазвивающиеся системы часто быстро выходят на плато или даже деградируют по мере прогресса обучения. Эти неудачи возникают из-за таких проблем, как дрейф концепций, коллапс разнообразия и ошибочная эволюция, когда модели усиливают собственные предубеждения и сходятся к низкоэнтропийному поведению. Чтобы обеспечить стабильное и контролируемое саморазвитие моделей при минимальной зависимости от человеческого контроля, мы представляем R-Few — управляемую структуру «Самопроверки: Испытатель-Решатель», которая включает легковесный человеческий надзор через контекстную привязку и смешанное обучение. На каждой итерации Испытатель выбирает небольшой набор размеченных человеком примеров для направления генерации синтетических вопросов, в то время как Решатель совместно обучается на человеческих и синтетических примерах в рамках онлайн-учебного плана, основанного на сложности. На эталонах математических и общих рассуждений R-Few демонстрирует последовательные и итеративные улучшения. Например, Qwen3-8B-Base улучшает результат на +3.0 пункта по сравнению с R-Zero в математических задачах и достигает производительности на уровне General-Reasoner, несмотря на то, что последний обучался на 20 раз большем объеме человеческих данных. Исследования методом абляции подтверждают взаимодополняющий вклад обучения Испытателя с привязкой и обучения Решателя по учебному плану, а дальнейший анализ показывает, что R-Few смягчает дрейф, обеспечивая более стабильную и управляемую коэволюционную динамику.
Несмотря на недавний прогресс в мультимодальных агентных системах, существующие подходы часто рассматривают манипуляции с изображениями и веб-поиск как разрозненные возможности, сильно зависят от дорогостоящего обучения с подкреплением и не имеют планирования, основанного на реальных траекториях выполнения инструментов. Чтобы устранить эти ограничения, мы представляем Skywork-R1V4 — мультимодальную агентную модель с 30 миллиардами (30B) параметров, которая объединяет мультимодальное планирование, активное манипулирование изображениями («мышление с помощью изображений»), углубленный мультимодальный поиск и, что наиболее важно, чередующиеся рассуждения, динамически переключающиеся между визуальными операциями и извлечением внешних знаний. Обученная исключительно с помощью контролируемого тонкого настроения на менее чем 30 000 высококачественных, согласованных по планированию и выполнению траекторий и проверенная с помощью пошаговой фильтрации на согласованность, Skywork-R1V4 достигает передовых результатов в различных бенчмарках восприятия и мультимодального поиска: она набирает 66,1 балла на MMSearch и 67,2 балла на FVQA, превосходя Gemini 2.5 Flash по всем 11 метрикам. Skywork-R1V4 демонстрирует emergent долгосрочное планирование на этапе вывода, успешно координируя более 10 вызовов инструментов для решения сложных многошаговых задач. Наши результаты показывают, что сложный агентный мультимодальный интеллект может быть достигнут только за счет тщательно отобранного контролируемого обучения, без какой-либо зависимости от обучения с подкреплением.
Достижение полностью автономных систем вождения требует обучения принятия рациональных решений в широком спектре сценариев, включая критические с точки зрения безопасности и сценарии с выходом за пределы распределения данных. Однако такие случаи недостаточно представлены в реальных данных, собранных экспертами-людьми. Для компенсации недостатка разнообразия данных мы представляем новую масштабируемую симуляционную среду, способную синтезировать массу ненаблюдавшихся состояний на основе существующих журналов вождения. Наш конвейер использует передовой нейронный рендеринг в сочетании с реактивной средой для генерации высококачественных многовидовых наблюдений, управляемых возмущенной траекторией эго-агента. Кроме того, мы разработали механизм генерации псевдоэкспертных траекторий для этих вновь смоделированных состояний, чтобы обеспечить контроль за действиями. На синтезированных данных мы обнаружили, что простая стратегия совместного обучения на реальных и смоделированных примерах может привести к значительному улучшению как устойчивости, так и способности к обобщению для различных методов планирования на сложных реальных тестах: до +6,8 EPDMS на navhard и +2,9 на navtest. Что более важно, такое улучшение политики плавно масштабируется лишь за счет увеличения объема симуляционных данных, даже без дополнительного притока реальных данных. Мы также выявляем несколько ключевых особенностей такой системы обучения «симуляция-реальность», которую мы называем SimScale, включая проектирование псевдоэкспертов и свойства масштабирования для различных архитектур политик. Наши симуляционные данные и код будут опубликованы.
Крупные языковые модели и агенты достигли значительных успехов в генерации кода, математических рассуждениях и научных открытиях. Однако существующие бенчмарки в основном оценивают корректность результатов, игнорируя разнообразие методов, лежащих в основе решений. Истинные инновации зависят не только от получения верных ответов, но и от оригинальности подхода. Мы представляем InnoGym — первый бенчмарк и фреймворк, предназначенный для систематической оценки инновационного потенциала ИИ-агентов. InnoGym вводит две взаимодополняющие метрики: прирост производительности, измеряющий улучшение по сравнению с наилучшими известными решениями, и новизну, фиксирующую методологические отличия от предыдущих подходов. Бенчмарк включает 18 тщательно отобранных задач из реальных инженерных и научных областей, каждая из которых стандартизирована посредством фильтрации ресурсов, валидации оценщиков и сбора решений. Кроме того, мы предоставляем iGym — унифицированную среду исполнения для воспроизводимых и долгосрочных оценок. Масштабные эксперименты показывают, что хотя некоторые агенты генерируют новые подходы, их недостаточная устойчивость ограничивает прирост производительности. Эти результаты выявляют ключевой разрыв между креативностью и эффективностью, подчеркивая необходимость бенчмарков, оценивающих оба аспекта.
Диффузионные модели достигли впечатляющих успехов в генерации изображений, однако их практическое применение по-прежнему ограничено высокими вычислительными затратами и необходимостью выполнения многочисленных шагов вывода. Предыдущие попытки дистилляции с меньшим количеством шагов направлены на пропуск избыточных этапов путем обучения компактных моделей-учеников, однако они часто сталкиваются с высокими затратами на переобучение и ухудшением обобщающей способности. В данной работе мы предлагаем иной подход: мы ускоряем интеллектуально, а не равномерно, применяя меньшие коэффициенты ускорения к ранним семантическим стадиям и большие — к поздним избыточным фазам. Мы реализуем эту стратегию, учитывающую фазы, с помощью двух экспертов, специализирующихся на медленных и быстрых фазах денойзинга. Неожиданно, вместо значительных затрат на переобучение моделей-учеников, мы обнаружили, что простое оснащение базовой модели легковесными LoRA-адаптерами позволяет достичь как эффективного ускорения, так и высокой обобщающей способности. Мы называем эти два адаптера Slow-LoRA и Fast-LoRA. В ходе обширных экспериментов наш метод обеспечивает до 5-кратного ускорения по сравнению с базовой моделью при сохранении сопоставимого визуального качества на различных бенчмарках. Примечательно, что эксперты LoRA обучаются всего на 1 изображении на одной видеокарте V100 в течение одного часа, однако полученные модели демонстрируют высокую способность к обобщению на непредвиденных промптах.
Несмотря на прогресс в генерации аудио из видео, данная область преимущественно сосредоточена на монофоническом выводе, лишённом пространственного погружения. Существующие бинауральные подходы ограничены двухэтапным конвейером, который сначала генерирует монофонический звук, а затем выполняет пространственную обработку, что зачастую приводит к накоплению ошибок и пространственно-временным несоответствиям. Для преодоления этого ограничения мы вводим задачу сквозной генерации бинаурального пространственного аудио непосредственно из беззвучного видео. Для решения этой задачи мы представляем набор данных BiAudio, содержащий около 97 тыс. пар "видео-бинауральный звук", охватывающих разнообразные реальные сцены и траектории вращения камеры, созданный с помощью полуавтоматического конвейера. Кроме того, мы предлагаем ViSAudio — сквозную архитектуру, использующую условное сопоставление потоков с двухкомпонентной структурой генерации аудио, где две специализированные ветви моделируют латентные потоки аудио. Интегрированный с модулем условного пространства-времени, фреймворк обеспечивает баланс согласованности между каналами при сохранении distinctive пространственных характеристик, гарантируя точное пространственно-временное соответствие между звуком и входным видео. Всесторонние эксперименты демонстрируют, что ViSAudio превосходит существующие передовые методы как по объективным метрикам, так и по субъективным оценкам, генерируя бинауральный звук высокого качества с пространственным погружением, который эффективно адаптируется к изменениям точки обзора, движению источников звука и разнообразным акустическим условиям. Страница проекта: https://kszpxxzmc.github.io/ViSAudio-project.
Последние достижения в области больших языковых моделей для видео продемонстрировали высокие способности в понимании коротких видеороликов. Однако масштабирование их на видео продолжительностью в часы или дни остается крайне сложной задачей из-за ограниченной емкости контекста и потери критически важных визуальных деталей в процессе абстрагирования. Существующие методы с расширенной памятью смягчают эту проблему, используя текстовые сводки сегментов видео, однако они сильно зависят от текста и не способны задействовать визуальные свидетельства при анализе сложных сцен. Более того, поиск по фиксированным временным масштабам дополнительно ограничивает их гибкость в захвате событий, длящихся переменное время. Для решения этих проблем мы представляем WorldMM — новый мультимодальный агент памяти, который создает несколько взаимодополняющих видов памяти и осуществляет поиск по ним, включая как текстовые, так и визуальные представления. WorldMM состоит из трех типов памяти: эпизодическая память индексирует фактические события в нескольких временных масштабах, семантическая память постоянно обновляет концептуальные знания высокого уровня, а визуальная память сохраняет детальную информацию о сценах. На этапе вывода адаптивный агент поиска итеративно выбирает наиболее релевантный источник памяти и использует несколько уровней временной детализации в зависимости от запроса, продолжая процесс до тех пор, пока не будет собрано достаточно информации. WorldMM значительно превосходит существующие базовые методы на пяти тестовых наборах для вопросно-ответных систем по длинным видео, демонстрируя прирост производительности в среднем на 8,4% по сравнению с предыдущими передовыми методами, что подтверждает его эффективность в решении задач анализа длинных видео.
Модели «зрение-язык-действие» (VLA) демонстрируют впечатляющие способности в роботизированном манипулировании, однако их производительность чувствительна к длине фрагмента действий (горизонту планирования), используемой во время обучения. Наше эмпирическое исследование выявляет inherent trade-off: более длинные горизонты обеспечивают лучшее глобальное предвидение, но ухудшают точность мелких движений, в то время как короткие горизонты улучшают локальный контроль, но испытывают трудности с долгосрочными задачами, что указывает на субоптимальность фиксированного выбора единого горизонта. Чтобы смягчить этот компромисс, мы предлагаем стратегию смеси горизонтов (MoH). MoH реструктуризирует фрагмент действий на несколько сегментов с разными горизонтами, обрабатывает их параллельно с помощью общего трансформера действий и объединяет выходные данные с помощью легкого линейного гейта. Этот подход имеет три ключевых преимущества. 1) MoH совместно использует долгосрочное предвидение и краткосрочную точность в рамках одной модели, улучшая как производительность, так и обобщаемость на сложные задачи. 2) MoH является plug-and-play решением для action-модулей с полным вниманием, с минимальными накладными расходами на обучение или вывод. 3) MoH позволяет осуществлять динамический вывод с адаптивными горизонтами, который выбирает стабильные действия на основе консенсуса между горизонтами, достигая пропускной способности в 2,5 раза выше, чем у базовых методов, при сохранении превосходной производительности. Многочисленные эксперименты с flow-based политиками π₀, π₀.₅ и one-step регрессионной политикой π_reg показывают, что MoH обеспечивает последовательный и значительный прирост производительности как в симуляциях, так и в реальных задачах. Примечательно, что в условиях mixed-task настройки π₀.₅ с MoH достигает нового state-of-the-art результата со средним показателем успеха 99% на LIBERO после всего 30 тысяч итераций обучения. Страница проекта: https://github.com/Timsty1/MixtureOfHorizons
Квантование до низкой битовой ширины является стандартным подходом для развертывания больших языковых моделей, однако небольшое количество экстремальных значений весов и активаций растягивает динамический диапазон и снижает эффективное разрешение квантователя. Распространенный метод смягчения проблемы заключается в применении некоторых фиксированных ортогональных преобразований, таких как матрицы Адамара, перед квантованием, что обычно уменьшает динамический диапазон. Тем не менее, эти преобразования игнорируют статистику данных, и их оптимальность в настоящее время не понята. В данной работе мы впервые выводим замкнутые оптимальные линейные блочные преобразования для совместного квантования весов и активаций с использованием стандартных квантователей без данных для распространенных числовых форматов. В частности, мы предоставляем выводы оптимальных адаптивных (учитывающих данные) преобразований для квантователей с округлением до ближайшего (RTN) и с масштабированием по абсолютному максимуму блока для целочисленных и форматов с плавающей запятой. Получившаяся конструкция, которую мы называем WUSH, сочетает основу из преобразования Адамара с компонентом, зависящим от данных и основанным на моментах второго порядка, что дает неортогональное преобразование, которое является доказуемо оптимальным при слабых предположениях и сохраняет структурированность для эффективной реализации. Предварительные экспериментальные результаты показывают, что наш подход последовательно превосходит преобразование Адамара для распространенных форматов.
Моделирование в латентном пространстве стало стандартом для диффузионных трансформеров (DiT). Однако этот подход основан на двухэтапном пайплайне, в котором предобученный автоэнкодер вносит потери при реконструкции, что приводит к накоплению ошибок и препятствует совместной оптимизации. Для решения этих проблем мы предлагаем PixelDiT — одноэтапную end-to-end модель, которая исключает необходимость использования автоэнкодера и изучает диффузионный процесс непосредственно в пиксельном пространстве. PixelDiT использует полностью трансформерную архитектуру с двухуровневой организацией: DiT на уровне патчей для захвата глобальной семантики и DiT на уровне пикселей для уточнения текстурных деталей, что позволяет эффективно обучать диффузионную модель в пиксельном пространстве с сохранением тонких деталей. Наш анализ показывает, что эффективное моделирование токенов на пиксельном уровне является ключевым фактором успеха пиксельной диффузии. PixelDiT достигает показателя FID 1.61 на ImageNet 256×256, значительно превосходя существующие пиксельные генеративные модели. Мы также расширяем PixelDiT для задач текстово-изобразительной генерации и предварительно обучаем модель в пиксельном пространстве с разрешением 1024×1024. Модель демонстрирует результаты 0.74 на GenEval и 83.5 на DPG-bench, приближаясь к лучшим моделям латентной диффузии.
Современные аудиовизуальные генеративные системы показывают, что совместная обработка модальностей улучшает не только синхронность аудио и видео, но и саму видеомодальность. Мы ставим фундаментальный вопрос: улучшает ли совместное аудиовизуальное обучение с шумоподавлением генерацию видео, даже когда нас интересует исключительно качество видео? Для исследования этого мы представляем параметрически эффективную архитектуру Audio-Video Full DiT (AVFullDiT), которая использует предобученные модули текст-к-видео (T2V) и текст-к-аудио (T2A) для совместного шумоподавления. Мы обучаем (i) модель T2AV с AVFullDiT и (ii) исключительно видеоцентричный аналог (T2V-only) в идентичных условиях. Наши результаты впервые систематически демонстрируют, что совместное аудиовизуальное шумоподавление дает преимущества, выходящие за рамки синхронизации. Мы наблюдаем устойчивое улучшение на сложных подмножествах данных с крупными движениями и контактами объектов. Мы выдвигаем гипотезу, что прогнозирование аудио выступает в роли привилегированного сигнала, побуждая модель усваивать причинно-следственные связи между визуальными событиями и их акустическими последствиями (например, влияние времени столкновения на звук), что, в свою очередь, регуляризует видео-динамику. Наши выводы свидетельствуют, что кросс-модальное совместное обучение является перспективным подходом для создания более мощных и физически обоснованных моделей мира. Код и набор данных будут опубликованы в открытом доступе.
Аналогическое рассуждение лежит в основе человеческого познания, служа важным фундаментом для различных интеллектуальных деятельностей. Хотя предыдущие исследования показали, что большие языковые модели (LLM) способны представлять паттерны задач и поверхностные концепции, остаётся неясным, могут ли эти модели кодировать реляционные концепции высокого уровня и применять их к новым ситуациям через структурированные сравнения. В данной работе мы исследуем этот фундаментальный аспект, используя пропорциональные и сюжетные аналогии, и выявляем три ключевых результата. Во-первых, LLM эффективно кодируют базовые отношения между аналогичными сущностями: как атрибутивная, так и реляционная информация распространяется через средние и верхние слои в правильных случаях, тогда как ошибки рассуждения отражают отсутствие реляционной информации в этих слоях. Во-вторых, в отличие от людей, LLM часто испытывают трудности не только при отсутствии реляционной информации, но и при попытке применить её к новым сущностям. В таких случаях стратегическое исправление скрытых представлений в критических позициях токенов может в определённой степени облегчить передачу информации. Наконец, успешное аналогическое рассуждение в LLM характеризуется сильным структурным выравниванием между аналогичными ситуациями, тогда как неудачи часто отражают деградировавшее или смещённое выравнивание. В целом наши результаты показывают, что LLM демонстрируют формирующиеся, но ограниченные способности в кодировании и применении реляционных концепций высокого уровня, подчёркивая как сходства, так и разрывы с человеческим познанием.
Крупные языковые модели (LLM) стремительно эволюционировали от генераторов текста к мощным инструментам решения задач. Однако многие открытые задачи требуют критического мышления, использования множества источников и проверяемых результатов, что выходит за рамки одношаговых промптов или стандартного поискового усиления генерации. В последнее время многочисленные исследования исследуют Глубокое Исследование (Deep Research, DR), целью которого является объединение способностей LLM к рассуждению с внешними инструментами, такими как поисковые системы, что позволяет LLM действовать в качестве исследовательских агентов, способных выполнять сложные, открытые задачи. Данный обзор представляет всесторонний и систематический обзор систем глубокого исследования, включая четкую дорожную карту, базовые компоненты, практические методы реализации, важные проблемы и будущие направления. В частности, наши основные вклады заключаются в следующем: (i) мы формализуем трехэтапную дорожную карту и отличаем глубокое исследование от смежных парадигм; (ii) мы представляем четыре ключевых компонента: планирование запросов, получение информации, управление памятью и генерация ответов, каждый из которых сопровождается детализированной субтаксономией; (iii) мы суммируем методы оптимизации, включая промптинг, контролируемое тонкое обучение и агентное обучение с подкреплением; и (iv) мы консолидируем критерии оценки и открытые проблемы, стремясь направлять и способствовать будущему развитию. Поскольку область глубокого исследования продолжает быстро развиваться, мы обязуемся постоянно обновлять этот обзор, чтобы отражать последние достижения в данной области.
В данной статье мы представляем CUDA-L2 — систему, которая объединяет большие языковые модели (LLM) и обучение с подкреплением (RL) для автоматической оптимизации CUDA-ядёр Half-precision General Matrix Multiply (HGEMM). Используя скорость выполнения CUDA в качестве вознаграждения RL, CUDA-L2 автоматически оптимизирует ядра HGEMM для 1000 конфигураций. CUDA-L2 систематически превосходит основные базовые реализации матричного умножения на сегодняшний день, от широко используемого {\it torch.matmul} до современных закрытых библиотек Nvidia, таких как {\it cuBLAS} и {\it cuBLASLt}. В автономном режиме, где ядра выполняются последовательно без временных интервалов, CUDA-L2 в среднем демонстрирует прирост производительности на +22,0% по сравнению с {\it torch.matmul}; на +19,2% по сравнению с {\it cuBLAS} при использовании оптимальной конфигурации макета (нормальный-нормальный, NN и транспонированный-нормальный, TN); на +16,8% по сравнению с {\it cuBLASLt-heuristic}, который запрашивает библиотеку {\it cuBLASLt} и выбирает алгоритм на основе предложения эвристики; и на +11,4% по сравнению с наиболее конкурентоспособной моделью {\it cuBLASLt-AutoTuning}, которая выбирает самый быстрый алгоритм из до 100 кандидатов, предложенных {\it cuBLASLt}. В серверном режиме, где ядра выполняются со случайными интервалами, имитирующими инференс в реальном времени, ускорение дополнительно возрастает до +28,7%, +26,0%, +22,4% и +15,9% для {\it torch.matmul}, {\it cuBLAS}, {\it cuBLASLt-heuristic} и {\it cuBLASLt-AutoTuning} соответственно. CUDA-L2 демонстрирует, что даже наиболее критичные к производительности, тщательно оптимизированные ядра, такие как HGEMM, можно улучшить с помощью автоматизации на основе RL, управляемого LLM, за счёт систематического исследования пространств конфигураций в масштабах, недостижимых для человека. Проект и код доступны по адресу github.com/deepreinforce-ai/CUDA-L2.
Модели Vision-Language-Action (VLA), обученные с помощью сопоставления потоков (flow matching), продемонстрировали впечатляющие возможности в задачах роботизированного манипулирования. Однако их производительность часто снижается при сдвиге распределения и на сложных многошаговых задачах, что позволяет предположить, что изученные представления могут недостаточно устойчиво отражать релевантную задаче семантику. Мы представляем DiG-Flow — принципиальную архитектуру, которая повышает устойчивость VLA за счет геометрической регуляризации. Наше ключевое наблюдение заключается в том, что распределительное расхождение между эмбеддингами наблюдений и действий предоставляет содержательный геометрический сигнал: меньшая стоимость транспортировки указывает на совместимые представления, тогда как более высокая стоимость свидетельствует о потенциальном рассогласовании. DiG-Flow вычисляет меру расхождения между эмпирическими распределениями эмбеддингов наблюдений и действий, отображает её в весовой коэффициент модуляции с помощью монотонной функции и применяет остаточные поправки к эмбеддингам наблюдений до этапа сопоставления потоков. Важно, что это вмешательство работает на уровне представлений, не изменяя путь сопоставления потоков или целевое векторное поле. Мы предоставляем теоретические гарантии, показывающие, что обучение с управлением по расхождению гарантированно уменьшает целевую функцию обучения, а управляемое уточнение при выводе сходится со сжатием. Экспериментально DiG-Flow интегрируется в существующие архитектуры VLA с незначительными накладными расходами и последовательно улучшает производительность, с особенно заметным приростом на сложных многошаговых задачах и в условиях ограниченного объема обучающих данных.
Последние достижения в области генерации видео позволили синтезировать видеоролики с высокой временной согласованностью и впечатляющим визуальным качеством, что знаменует важный шаг на пути к созданию фундаментальных моделей компьютерного зрения. Существующие бенчмарки для оценки таких моделей в основном сосредоточены на аспектах, связанных с визуальным восприятием и пониманием, таких как эстетика изображения, соответствие инструкциям и временная целостность. Однако способности моделей генерации видео к логическому выводу на основе правил остаются в значительной степени неисследованными. Хотя недавние исследования провели предварительный анализ возможности использования видео-моделей в качестве обучаемых "с нуля", в них по-прежнему отсутствует детальная декомпозиция логических способностей и комплексный протокол оценки. Для устранения этого пробела мы представляем RULER-Bench — бенчмарк, предназначенный для оценки способности к логическому выводу моделей генерации видео с точки зрения когнитивных правил. Построенный на двух фундаментальных парадигмах — текстовое-описание-в-видео и изображение-в-видео — RULER-Bench охватывает 40 репрезентативных задач из шести категорий правил с 622 экземплярами высококачественных аннотаций. Для оценки каждого сгенерированного видео мы создали контрольный список из четырёх метрик и использовали GPT-4o для присвоения баллов каждому вопросу, достигнув 85% согласованности с человеческими оценками. Масштабные эксперименты показывают, что современная модель достигает лишь 48,87% по метрике согласованности с правилами, что указывает на значительный потенциал для улучшения логических способностей видео-моделей следующего поколения. Мы ожидаем, что инсайты, полученные с помощью RULER-Bench, будут способствовать дальнейшему развитию генерации видео с учётом логического вывода, продвигая модели к созданию фундаментального искусственного интеллекта для компьютерного зрения.
Распознавание таблиц (TR) ставит целью преобразование изображений таблиц в полуструктурированные представления, такие как HTML или Markdown. Будучи ключевым компонентом парсинга документов, TR долгое время опирался на обучение с учителем, а в последнее время доминируют подходы с дообучением визуально-языковых моделей (VLM) на размеченных данных. Хотя VLM вывели TR на новый уровень, дальнейшее повышение производительности требует крупномасштабных размеченных данных, получение которых дорогостояще. Как следствие, хотя проприетарные модели постоянно расширяют границы возможностей, модели с открытым исходным кодом, часто обучаемые с ограниченными ресурсами и на практике являющиеся единственным жизнеспособным вариантом для многих из-за нормативов конфиденциальности, все еще значительно отстают. Чтобы сократить этот разрыв, мы представляем TRivia — метод самообучаемого дообучения, который позволяет предобученным VLM изучать TR непосредственно из немаркированных изображений таблиц в естественных условиях. Построенный на основе Group Relative Policy Optimization, TRivia автоматически идентифицирует немаркированные примеры, которые наиболее эффективно способствуют обучению, и устраняет необходимость в человеческих разметках через механизм вознаграждений на основе вопросно-ответной системы. Модуль с управлением вниманием генерирует разнообразные вопросы для каждого изображения таблицы, а способность интерпретировать результаты распознавания и правильно отвечать на них предоставляет обратную связь для оптимизации TR-модели. Этот замкнутый процесс позволяет TR-модели автономно обучаться распознаванию, структурированию и логическому анализу таблиц без размеченных данных. Используя этот конвейер, мы представляем TRivia-3B — открытую, компактную и передовую TR-модель, которая превосходит существующие системы (например, Gemini 2.5 Pro, MinerU2.5) на трех популярных бенчмарках. Модель и код доступны по адресу: https://github.com/opendatalab/TRivia
Мы представляем MagicQuill V2 — новую систему, которая вводит парадигму многоуровневой композиции в генеративное редактирование изображений, преодолевая разрыв между семантической мощью диффузионных моделей и детальным контролем традиционного графического программного обеспечения. Хотя диффузионные трансформеры превосходно справляются с целостной генерацией, использование ими единых монолитных промтов не позволяет разделить различные пользовательские интенции, касающиеся содержания, позиционирования и внешнего вида. Для решения этой проблемы наш метод декомпозирует творческий замысел в стек управляемых визуальных сигналов: слой содержания (что создавать), пространственный слой (где разместить), структурный слой (как сформировано) и цветовой слой (палитра). Наши технические достижения включают специализированный пайплайн генерации данных для контекстно-зависимой интеграции контента, унифицированный модуль управления для обработки всех визуальных сигналов и дообученную пространственную ветвь для точного локального редактирования, включая удаление объектов. Многочисленные эксперименты подтверждают, что данный многоуровневый подход эффективно устраняет разрыв в интерпретации намерений пользователя, предоставляя создателям прямой и интуитивный контроль над генеративным процессом.
Мы исследуем, как различные конструкции цепочки рассуждений (CoT) влияют на формирование обобщаемой способности к визуальному мышлению в визуально-языковых моделях (VLM). Хотя данные CoT, особенно длинные или визуальные, такие как «рассуждение с изображением», широко используются для контроля промежуточных логических шагов, до сих пор неясно, почему конкретные конструкции CoT помогают и какие из них действительно способствуют обобщаемому мышлению. Для систематической оценки этого мы используем контролируемый бенчмарк решения лабиринтов, где правила рассуждений полностью визуальны, сложность может настраиваться размером сетки, а все промежуточные шаги могут генерироваться автоматически. Используя модель Qwen2.5-VL-7B в рамках стандартного пайплайна SFT-then-RL, мы сравниваем три репрезентативных формата CoT: языковой CoT, CoT с привязкой к пространству (с траекториями пространственных координат) и визуальный CoT (с манипуляциями над изображением). Наши эксперименты показывают, что визуальные и более длинные CoT в основном ускоряют сходимость, но не повышают итоговый порог производительности; лаконичный CoT, содержащий только ключевые шаги привязки, превосходит по эффективности более длинные последовательности; и, что примечательно, CoT, сохраняющий лишь минимально необходимую привязку, лучше всего обобщается на лабиринтах разного размера. Мы дополнительно проверяем эти выводы на других визуально-ориентированных задачах. Полученные результаты демонстрируют эффект «краткость — сестра таланта» и дают практические рекомендации по построению более обобщаемых наборов данных SFT для визуального мышления.
Физический искусственный интеллект (Physical AI) ставит целью разработку моделей, способных воспринимать и предсказывать динамику реального мира; однако степень, в которой современные мультимодальные большие языковые модели и модели генерации видео поддерживают эти способности, изучена недостаточно. Мы представляем Physical AI Bench (PAI-Bench) — унифицированный и комплексный бенчмарк, который оценивает возможности восприятия и прогнозирования в задачах генерации видео, условной генерации видео и понимания видео. Бенчмарк включает 2 808 реальных сценариев с метриками, согласованными с задачами и разработанными для оценки физической правдоподобности и предметно-ориентированных рассуждений. Наше исследование предлагает систематическую оценку современных моделей и показывает, что модели генерации видео, несмотря на высокую визуальную достоверность, часто не способны сохранять физически согласованную динамику, в то время как мультимодальные большие языковые модели демонстрируют ограниченную производительность в прогнозировании и каузальной интерпретации. Эти наблюдения свидетельствуют о том, что современные системы всё ещё находятся на ранней стадии решения перцептивных и прогностических задач Физического ИИ. В итоге, PAI-Bench закладывает реалистичную основу для оценки Физического ИИ и выявляет ключевые пробелы, которые должны быть устранены в будущих системах.
Мы исследуем, способны ли видео-генеративные модели проявлять визуально-пространственный интеллект — ключевую способность человеческого познания — используя только визуальные данные. Для этого мы представляем Video4Spatial, фреймворк, который демонстрирует, что видео-диффузионные модели, обученные исключительно на видео-контексте сцены, могут выполнять сложные пространственные задачи. Мы проводим валидацию на двух задачах: навигации в сцене — следовании инструкциям по изменению положения камеры с сохранением соответствия 3D-геометрии сцены, и локализации объектов — что требует семантической локализации, следования инструкциям и планирования. Обе задачи используют только видео-входные данные, без вспомогательных модальностей, таких как глубина или позы. Благодаря простым, но эффективным проектным решениям в архитектуре фреймворка и курации данных, Video4Spatial демонстрирует глубокое понимание пространства из видео-контекста: модель осуществляет планирование навигации и сквозную локализацию целевых объектов, следует инструкциям по положению камеры, сохраняя пространственную согласованность, и обобщает для длинных контекстов и сред, не представленных в обучающих данных. В совокупности эти результаты продвигают видео-генеративные модели в сторону общих рассуждений о визуально-пространственной среде.
Хотя ИИ-агенты на основе больших языковых моделей (LLM) и визуально-языковых моделей (VLM) быстро развиваются в области математики, программирования и работы с компьютером, их применение в сложных физических и социальных средах остается проблематичным. Создание агентов, способных выживать и процветать в реальном мире (например, автономно зарабатывать доход или управлять бизнесом), требует масштабного взаимодействия, рассуждений, обучения и оценки в разнообразных воплощенных сценариях. Однако существующие симуляторы мира для такой разработки несовершенны: они часто опираются на ограниченные ручно созданные среды, моделируют упрощенные игровые физику и социальные правила и не имеют встроенной поддержки агентов LLM/VLM. Мы представляем SimWorld — новый симулятор, построенный на Unreal Engine 5, предназначенный для разработки и оценки агентов LLM/VLM в богатых, приближенных к реальности условиях. SimWorld предлагает три ключевые возможности: (1) реалистичное, открытое моделирование мира, включая точные физические и социальные динамики и процедурное генерацию среды на основе языка; (2) богатый интерфейс для агентов LLM/VLM с мультимодальными входами мира и действиями с открытым словарем на различных уровнях абстракции; и (3) разнообразные и расширяемые сценарии физического и социального мышления, которые легко настраиваются пользователями. Мы демонстрируем SimWorld, развертывая передовые агенты LLM (например, GPT-4o, Gemini-2.5-Flash, Claude-3.5 и DeepSeek-Prover-V2) в долгосрочных многозадачных миссиях доставки, предполагающих стратегическое сотрудничество и конкуренцию. Результаты выявляют различные модели рассуждений и ограничения across моделей. Мы открываем исходный код SimWorld и надеемся, что он станет фундаментальной платформой для развития интеллекта агентов в реальном мире across дисциплин: https://simworld.org.
Модели "Vision-Language-Action" (VLA), построенные на предварительно обученных моделях "Vision-Language" (VLM), демонстрируют значительный потенциал, но их практическое применение ограничено из-за большого количества параметров. Для решения этой проблемы изучалось использование облегченных VLM, однако это приводит к ухудшению пространственно-временного анализа. Хотя некоторые методы предлагают использовать дополнительные 3D-данные для улучшения ситуации, они обычно полагаются на крупные VLM для объединения 3D и 2D входных данных и все равно не обеспечивают полноценного временного понимания. Поэтому мы предлагаем SwiftVLA — архитектуру, которая наделяет компактную модель пониманием 4D-данных, сохраняя при этом эффективность проектирования. В частности, наш подход включает предварительно обученный 4D-трансформер визуальной геометрии с временным кэшем, который извлекает 4D-признаки из 2D-изображений. Затем, чтобы расширить возможности VLM по использованию как 2D-изображений, так и 4D-признаков, мы вводим Fusion Tokens — набор обучаемых токенов, которые тренируются с целью предсказания будущего состояния для генерации унифицированных представлений, используемых при создании действий. Наконец, мы предлагаем стратегию "маскирования и восстановления", которая маскирует 4D-входы для VLM и обучает модель VLA их восстанавливать. Это позволяет VLM освоить эффективные 4D-представления и дает возможность отключить 4D-ветку на этапе inference с минимальной потерей производительности. Эксперименты в реальных и симулированных средах показывают, что SwiftVLA превосходит облегченные базовые модели и конкурирует с VLA, которые до 7 раз крупнее, достигая сопоставимой производительности на периферийных устройствах при ускорении в 18 раз и сокращении объема используемой памяти в 12 раз.
Хотя диффузионные модели для генерации видеоаватаров на основе аудио достигли значительного прогресса в синтезе длинных последовательностей с естественной аудиовизуальной синхронизацией и идентичностью, генерация видеороликов музыкальных выступлений с движением камеры остается малоизученной. Мы представляем YingVideo-MV — первую каскадную архитектуру для генерации длинных видео на основе музыки. Наш подход интегрирует семантический анализ аудио, интерпретируемый модуль планирования кадров (MV-Director), темпорально-ориентированные диффузионные Transformer-архитектуры и моделирование согласованности длинных последовательностей для автоматического синтеза высококачественных видео музыкальных выступлений из аудиосигналов. Мы создали масштабный набор данных Music-in-the-Wild, собрав веб-данные для достижения разнообразных и качественных результатов. Отметив, что существующие методы генерации длинного видео не имеют явного управления движением камеры, мы вводим модуль адаптера камеры, встраивающий позы камеры в латентный шум. Для улучшения непрерывности между клипами при выводе длинных последовательностей мы дополнительно предлагаем стратегию динамического временного окна, которая адаптивно регулирует диапазоны дениоинга на основе аудио-эмбеддингов. Комплексные тесты показывают, что YingVideo-MV демонстрирует выдающуюся производительность в генерации связных и выразительных музыкальных видео с точной синхронизацией музыка-движение-камера. Дополнительные видео доступны на странице проекта: https://giantailab.github.io/YingVideo-MV/.
Мы представляем Ovis-Image — 7-миллиардную тексто-визуальную модель, специально оптимизированную для высококачественного рендеринга текста и предназначенную для эффективной работы в условиях строгих вычислительных ограничений. Построенная на основе нашей предыдущей архитектуры Ovis-U1, модель Ovis-Image интегрирует диффузионный визуальный декодер с более мощной мультимодальной основой Ovis 2.5, используя ориентированный на текст конвейер обучения, который сочетает масштабное предварительное обучение с тщательно подобранными пост-тренировочными доработками. Несмотря на компактную архитектуру, Ovis-Image демонстрирует качество рендеринга текста, сопоставимое с значительно более крупными открытыми моделями, такими как Qwen-Image, и приближается к проприетарным системам, таким как Seedream и GPT4o. Ключевым преимуществом является возможность развертывания модели на одной высокопроизводительной GPU с умеренным объемом памяти, что сокращает разрыв между передовыми возможностями рендеринга текста и практическим внедрением. Наши результаты показывают, что комбинация мощной мультимодальной основы с тщательно разработанным, ориентированным на текст подходом к обучению позволяет достичь надежного двуязычного рендеринга текста без привлечения избыточно больших или проприетарных моделей.
Создание минутных видео является ключевым шагом на пути к разработке мировых моделей, обеспечивая основу для реалистичных протяженных сцен и продвинутых ИИ-симуляторов. Появляющаяся полуавторегрессионная парадигма (блочная диффузия) объединяет преимущества диффузионных и авторегрессионных моделей, позволяя генерировать видео произвольной длины и повышая эффективность вывода за счет KV-кэширования и параллельного сэмплирования. Однако она сталкивается с двумя сохраняющимися проблемами: (i) накоплением ошибок на длинных горизонтах, вызванным KV-кэшем, и (ii) отсутствием детализированных бенчмарков для длинных видео и метрик, учитывающих согласованность. Для преодоления этих ограничений мы предлагаем BlockVid — новую框架 блочной диффузии, оснащенную семантически осознанным разреженным KV-кэшем, эффективной стратегией обучения под названием Block Forcing, а также специализированным покусочным планированием шума и перемешиванием для снижения распространения ошибок и улучшения временной согласованности. Мы также представляем LV-Bench — детализированный бенчмарк для минутных видео, включающий новые метрики для оценки долгосрочной согласованности. Многочисленные эксперименты на VBench и LV-Bench демонстрируют, что BlockVid стабильно превосходит существующие методы в генерации высококачественных, согласованных минутных видео. В частности, он достигает улучшения на 22,2% по VDE Subject и на 19,4% по VDE Clarity в LV-Bench по сравнению с передовыми подходами. Веб-сайт проекта: https://ziplab.co/BlockVid. Inferix (Код): https://github.com/alibaba-damo-academy/Inferix.
Сегодня люди могут легко записывать памятные моменты — концерты, спортивные мероприятия, лекции, семейные встречи и дни рождения — с помощью множества потребительских камер. Однако синхронизация этих потоков с разных камер остается сложной задачей. Существующие методы предполагают контролируемые условия съемки, специфические цели, ручную коррекцию или дорогостоящее оборудование. Мы представляем VisualSync — оптимизационный фреймворк, основанный на многовидовой динамике, который выравнивает непозированные и несинхронизированные видео с точностью до миллисекунды. Наше ключевое наблюдение заключается в том, что любая движущаяся 3D-точка, будучи видимой в двух камерах, подчиняется эпиполярным ограничениям при правильной синхронизации. Для этого VisualSync использует готовые решения для 3D-реконструкции, сопоставления признаков и плотного отслеживания для извлечения треклетов, относительных поз и соответствий между видами. Затем метод совместно минимизирует эпиполярную ошибку для оценки временного смещения каждой камеры. Эксперименты на четырех разнообразных сложных наборах данных показывают, что VisualSync превосходит базовые методы, достигая медианной ошибки синхронизации менее 50 мс.
Трехмерная реконструкция по многовидовым изображениям является ключевой задачей компьютерного зрения. В последнее время прямые (feed-forward) методы стали эффективной и надежной альтернативой традиционным техникам оптимизации для отдельной сцены. Среди них передовые модели, такие как Visual Geometry Grounding Transformer (VGGT), используют полное самовнимание (self-attention) ко всем токенам изображений для захвата глобальных зависимостей. Однако этот подход страдает от плохой масштабируемости из-за квадратичной сложности самовнимания и большого количества токенов, генерируемых в длинных последовательностях изображений. В данной работе мы представляем FlashVGGT — эффективную альтернативу, которая решает это узкое место с помощью механизма внимания на основе дескрипторов. Вместо применения плотного глобального внимания ко всем токенам, FlashVGGT сжимает пространственную информацию из каждого кадра в компактный набор токенов-дескрипторов. Глобальное внимание затем вычисляется как перекрестное внимание (cross-attention) между полным набором токенов изображений и этим меньшим набором дескрипторов, что значительно снижает вычислительные затраты. Более того, компактность дескрипторов позволяет осуществлять онлайн-вывод для длинных последовательностей с помощью chunk-recursive механизма, который повторно использует кэшированные дескрипторы из предыдущих фрагментов. Экспериментальные результаты показывают, что FlashVGGT достигает точности реконструкции, сопоставимой с VGGT, при этом сокращая время вывода до 9.3% от времени VGGT для 1000 изображений и эффективно масштабируясь до последовательностей, превышающих 3000 изображений. Страница проекта доступна по адресу https://wzpscott.github.io/flashvggt_page/.
Авторегрессионные (AR) языковые модели и Диффузионные языковые модели (DLM) представляют собой две основные парадигмы больших языковых моделей. Однако обе парадигмы страдают от недостаточных способностей к логическому выводу. Человеческое рассуждение по своей природе опирается на каузальные знания и мышление, что находит отражение в естественном языке. Но в AR-парадигме язык моделируется как предсказание следующего токена (строго слева направо, токен за токеном), тогда как сам естественный язык демонстрирует более гибкие причинно-следственные структуры. В DLM-парадигме механизм внимания является полностью связанным, что полностью игнорирует причинный порядок. Чтобы заполнить этот пробел, мы предлагаем **К**аузальную **К**онцептуально-**У**правляемую **Д**иффузионную **Я**зыковую **М**одель (C²DLM). Исходя из полностью связанного внимания DLM, C²DLM сначала получает причинно-следственный граф на уровне концептов от учительской модели, а затем явно направляет внимание на изучение причинно-следственных связей между концептами. Сосредоточившись на причинно-следственных связях и избегая вмешательства сложных подзадач, связанных с каузальной инверсией, C²DLM улучшает результат на 12% с ускорением обучения примерно в 3,2 раза в задаче COT-OrderPerturb и демонстрирует средний прирост в 1,31% на шести задачах логического вывода. Подробнее в репозитории ~https://github.com/Kairong-Han/C-2-DLM{здесь}.
Маскированные диффузионные языковые модели (MDLM) недавно появились как перспективная альтернатива авторегрессионным языковым моделям (ARLM), используя деноизирующий принцип, который, в теории, должен обеспечивать более равномерное использование контекста. В данной работе мы исследуем способности MDLM к пониманию контекста и выявляем два ключевых ограничения. Во-первых, несмотря на более глобальную цель обучения и двунаправленный механизм внимания, подобно ARLM, MDLM демонстрируют сильную склонность к локальности: производительность сильно зависит от положения релевантной информации во входных данных, отдавая предпочтение локальному контексту перед удаленным. Во-вторых, мы показываем, что добавление большого количества маскирующих токенов, необходимых для генерации, может значительно ухудшить понимание контекста. С помощью систематических абляций мы обнаруживаем, что эти маски действуют как отвлекающие факторы, снижая способность модели обрабатывать релевантную информацию. Для решения этой проблемы мы представляем функцию потерь, инвариантную к маскам, которая побуждает прогнозы оставаться неизменными независимо от количества добавленных масок. Дообучение с этой целью существенно смягчает отвлекающий эффект масок, повышая устойчивость MDLM. В целом, наши результаты выявляют критические ограничения текущей парадигмы обучения MDLM и предоставляют практические рекомендации для создания диффузионных языковых моделей с более сильным пониманием контекста.
Агентные визуально-языковые модели все чаще обучаются «мыслить образами», вызывая операции с изображениями. Однако мы показываем, что высокая итоговая точность ответов часто скрывает недобросовестное визуальное рассуждение: модели могут применять инструменты к нерелевантным областям или полностью игнорировать их результаты, но при этом угадывать правильный ответ. В данной работе мы сначала предлагаем протокол оценки добросовестности, который измеряет, содержат ли промежуточные визуальные результаты инструментов (например, кропы) запрашиваемые доказательства. Это показывает, что современные визуальные агенты достигают высокой итоговой точности, но демонстрируют низкий уровень добросовестного использования инструментов в бенчмарках визуального поиска. Затем мы представляем CodeV — кодонового визуального агента, обученного с помощью оптимизации политики с учетом инструментов (TAPO). TAPO — это процессная RL-архитектура, которая расширяет GRPO за счет плотных вознаграждений, определенных непосредственно на входах и выходах визуальных инструментов, а не на токенах цепи рассуждений, что упрощает проверку контроля и снижает уязвимость к взлому вознаграждений. CodeV представляет визуальные инструменты в виде исполняемого кода Python, а TAPO назначает пошаговые вознаграждения исключительно на основе вопроса и вывода инструмента, поощряя как необходимое, так и согласованное с доказательствами использование инструментов. В двухэтапном конвейере SFT+RL CodeV достигает конкурентоспособной или превосходящей точности при значительном увеличении уровня добросовестного использования инструментов в связанных бенчмарках визуального поиска. Помимо визуального поиска, CodeV демонстрирует высокую производительность на ряде мультимодальных бенчмарков рассуждений и математики, что позволяет предположить, что явный контроль промежуточного поведения инструментов критически важен для построения надежных агентных систем визуального рассуждения.
Автоматическое доказательство теорем в евклидовой геометрии, особенно для задач уровня Международной математической олимпиады (ММО), остается серьезной проблемой и важным направлением исследований в области искусственного интеллекта. В данной статье представлен высокоэффективный метод доказательства геометрических теорем, который полностью выполняется на центральных процессорах без использования выводов на основе нейронных сетей. Наше первоначальное исследование показывает, что простая случайная стратегия добавления вспомогательных точек позволяет достичь уровня человеческой производительности, соответствующего серебряной медали на ММО. Основываясь на этом, мы предлагаем HAGeo — эвристический метод добавления вспомогательных построений в геометрическом выводе, который решает 28 из 30 задач на тестовом наборе IMO-30, достигая уровня производительности золотой медали и значительно превосходя AlphaGeometry, конкурирующий подход на основе нейронных сетей. Для более комплексной оценки нашего метода и существующих подходов мы дополнительно создали HAGeo-409 — тестовый набор, состоящий из 409 геометрических задач с уровнями сложности, оцененными человеком. По сравнению с широко используемым IMO-30, наш тестовый набор представляет более серьезные вызовы и обеспечивает более точную оценку, устанавливая более высокую планку для автоматического доказательства геометрических теорем.
Следующим рубежом в области генерации видео является разработка моделей, способных к рассуждениям в режиме zero-shot, где понимание реальных научных законов крайне важно для точного моделирования физических результатов в различных условиях. Однако существующие видео-бенчмарки основаны на физической здравой логике (commonsense) и дают ограниченное представление о способности видео-моделей к научным рассуждениям. Мы представляем VideoScience-Bench — бенчмарк, разработанный для оценки понимания научных концепций уровня бакалавриата в видео-моделях. Каждый промпт кодирует составной научный сценарий, который требует понимания и рассуждений на основе множества научных концепций для генерации корректного явления. Бенчмарк включает 200 тщательно отобранных промптов, охватывающих 14 тем и 103 концепции в области физики и химии. Мы проводим экспертно-аннотированные оценки семи передовых видео-моделей в настройках T2V (текст-в-видео) и I2V (изображение-в-видео) по пяти измерениям: соответствие промпту, соответствие явления, корректная динамика, неизменяемость и пространственно-временная непрерывность. Используя VLM-as-a-Judge для оценки сгенерированных видео, мы наблюдаем сильную корреляцию с человеческими оценками. Насколько нам известно, VideoScience-Bench является первым бенчмарком, который оценивает видео-модели не только как генераторы, но и как системы, способные к рассуждениям, требуя, чтобы их генерации демонстрировали научное понимание, согласующееся с ожидаемыми физическими и химическими явлениями. Наши данные и код для оценки доступны по адресу: https://github.com/hao-ai-lab/VideoScience.
Редактирование портретных видео — это сложная задача, требующая гибкого, но точного контроля над широким спектром модификаций, таких как изменение внешности, правка выражения лица или добавление объектов. Основная сложность заключается в сохранении исходного временного поведения субъекта, что требует точной синхронизации каждого редактируемого кадра с соответствующим исходным кадром. Мы представляем Sync-LoRA — метод редактирования портретных видео, который обеспечивает высококачественные визуальные модификации при сохранении покадровой синхронизации и консистентности идентичности. Наш подход использует диффузионную модель «изображение-в-видео», где правка задается путем модификации первого кадра, а затем распространяется на всю последовательность. Для достижения точной синхронизации мы обучаем контекстно-зависимый LoRA на парных видео, которые изображают идентичные траектории движений, но различаются по внешности. Эти пары автоматически генерируются и отбираются с помощью процесса фильтрации на основе синхронизации, который выбирает для обучения только наиболее временно согласованные примеры. Такая схема обучения учит модель комбинировать сигналы движения из исходного видео с визуальными изменениями, внесенными в отредактированный первый кадр. Обучившись на компактном, тщательно отобранном наборе синхронизированных человеческих портретов, Sync-LoRA обобщается на незнакомые идентичности и разнообразные правки (например, изменение внешности, добавление объектов или смена фона), устойчиво обрабатывая вариации позы и выражения. Наши результаты демонстрируют высокую визуальную достоверность и сильную временную согласованность, достигая надежного баланса между точностью редактирования и сохранением исходной динамики движений.
Стремительное развитие мощных мультимодальных моделей, таких как GPT-4o, Nano Banana и Seedream 4.0, в области редактирования изображений ведет к увеличению разрыва в производительности между проприетарными и открытыми моделями. Это связано в первую очередь с нехваткой крупномасштабных высококачественных данных для обучения, а также всесторонних бенчмарков, способных диагностировать слабые места моделей при выполнении разнообразных задач редактирования. Существующие методы создания данных сталкиваются с компромиссом между масштабом и качеством: человеческие аннотации обладают высоким качеством, но плохо масштабируются, тогда как автоматизированные пайплайны страдают от распространения ошибок и зашумленности. Для решения этой проблемы мы представляем легковесный пайплайн, который заменяет многокомпонентные инструментальные цепочки на сквозную модель и унифицированный этап пост-проверки. Для масштабируемого контроля качества мы обучаем 7-миллиардную экспертную модель с двумя задачами, Qwen-Verify, для эффективного обнаружения ошибок и переописания инструкций. Данный пайплайн позволяет создать UnicEdit-10M — набор данных масштабом 10 миллионов примеров, охватывающий разнообразные базовые и сложные задачи редактирования. Мы также предлагаем UnicBench, универсальный бенчмарк, который выходит за рамки базового редактирования и явно оценивает пространственные и основанные на знаниях рассуждения. Для обеспечения детальной диагностики мы вводим новые метрики, включая **Нередактируемую Согласованность** и **Точность Рассуждений**. Наш анализ основных моделей на UnicBench выявляет их ограничения и определяет четкие направления для будущих исследований.
С быстрым развитием больших визуально-языковых моделей фокус задач агентов графического интерфейса пользователя (GUI) смещается от задач на одном экране к сложным проблемам навигации между экранами. Однако реальные GUI-среды, такие как ПО для ПК и мобильные приложения, часто являются сложными и проприетарными, что затрудняет получение полной информации о среде, необходимой для обучения и оценки агентов. Это ограничение препятствует систематическому исследованию и бенчмаркингу возможностей навигации агентов. Чтобы устранить это ограничение, мы представляем GUI Exploration Lab — механизм среды имитации для исследования навигации GUI-агентов, который позволяет гибко определять и комбинировать экраны, иконки и графы навигации, предоставляя при этом полный доступ к информации о среде для всестороннего обучения и оценки агентов. В ходе обширных экспериментов мы обнаружили, что обучение с учителем позволяет эффективно запоминать базовые знания, служа crucialным фундаментом для последующего обучения. На этой основе обучение с подкреплением в один шаг дополнительно улучшает обобщающую способность для непредвиденных сценариев. Наконец, многошаговое обучение с подкреплением стимулирует разработку стратегий исследования через интерактивные пробы и ошибки, что приводит к дальнейшему повышению производительности навигации по экранам. Мы проверяем наши методы на статических и интерактивных бенчмарках, демонстрируя, что наши выводы эффективно обобщаются на реальные сценарии. Эти результаты демонстрируют преимущества подходов обучения с подкреплением в GUI-навигации и предлагают практические рекомендации для создания более способных и обобщаемых GUI-агентов.
Крупные мультимодальные модели достигли значительного прогресса как в понимании, так и в генерации. Современные исследования направлены на создание унифицированных мультимодальных моделей, которые интегрируют гетерогенные компоненты для поддержки обеих возможностей в единой архитектуре. Однако такая унификация приводит к неэффективности вывода: например, конкретные задачи или образцы могут не требовать полного объема знаний или мощности унифицированной модели. Тем не менее, систематическое понимание того, как эти неэффективности проявляются в различных компонентах, остается ограниченным. В данной работе мы сначала проводим систематический анализ компонентов унифицированной мультимодальной модели, используя бестренировочный прунинг в качестве метода исследования, рассматривая как прунинг по глубине, так и сокращение по ширине. Наше исследование показывает, что компонент понимания демонстрирует заметную сжимаемость как в задачах понимания, так и генерации, причем в последних это выражено более ярко. В отличие от этого, компоненты генерации высокочувствительны к сжатию: их производительность резко ухудшается даже при умеренных коэффициентах сжатия. Для преодоления этого ограничения мы предлагаем адаптацию на основе смеси экспертов (Mixture-of-Experts, MoE), вдохновленную наблюдаемыми динамическими паттернами активации для различных образцов. Этот подход разделяет модуль генерации на несколько экспертов и позволяет разреженную активацию для восстановления качества генерации. Мы подтверждаем эффективность разреженной активации с помощью тонкой настройки с замороженными экспертами и дополнительно демонстрируем, что полностью обучаемая адаптация дает дополнительные преимущества. В результате адаптированная модель BAGEL достигает производительности, сопоставимой с полной моделью, при активации лишь около половины ее параметров. Код доступен по ссылке: https://github.com/Shwai-He/SparseUnifiedModel{эта ссылка}.
Современные фреймворки обучения с подкреплением для политик визуального восприятия начали включать промежуточные цепочки рассуждений, выраженные на естественном языке. Эмпирические наблюдения показывают, что такие чисто лингвистические промежуточные рассуждения часто снижают производительность на задачах восприятия. Мы утверждаем, что ключевая проблема заключается не в самом рассуждении, а в его форме: в то время как эти цепочки выполняют семантические рассуждения в неструктурированном лингвистическом пространстве, визуальное восприятие требует рассуждений в пространственном и объектно-ориентированном пространстве. В ответ на это мы представляем Artemis — фреймворк обучения политик восприятия, который выполняет структурированное рассуждение на основе предложений (proposal-based reasoning), где каждый промежуточный шаг представлен в виде пары (метка, ограничивающая рамка), фиксирующей проверяемое визуальное состояние. Такой дизайн позволяет явно отслеживать промежуточные состояния, осуществлять прямое управление качеством предложений и избегать неоднозначности, привносимой языковыми рассуждениями. Artemis построен на основе Qwen2.5-VL-3B, демонстрирует высокую производительность на задачах локализации и обнаружения и показывает значительную обобщающую способность на задачи счета и геометрического восприятия. Последовательное улучшение результатов в этих разнообразных условиях подтверждает, что согласование рассуждений с пространственными представлениями улучшает обучение политик восприятия. Благодаря усиленному визуальному рассуждению Artemis также достигает конкурентоспособных результатов на общих бенчмарках MLLM, что иллюстрирует, что пространственно обоснованное рассуждение предоставляет принципиальный путь к масштабируемым и обобщающим политикам восприятия.
Глобализация образования и быстрый рост онлайн-обучения сделали локализацию образовательного контента критически важной задачей. Учебные материалы по своей природе мультимодальны, сочетая звуковую речь с визуальными слайдами, что требует систем, способных обрабатывать несколько входных модальностей. Чтобы обеспечить доступный и полноценный учебный опыт, переводы должны сохранять все модальности: текст для чтения, слайды для визуального восприятия и речь для аудирования. Мы представляем BOOM, мультимодального многоязычного помощника для лекций, который совместно переводит аудио и слайды лекций для создания синхронизированных выходных данных в трёх модальностях: переведённый текст, локализованные слайды с сохранёнными визуальными элементами и синтезированная речь. Этот сквозной подход позволяет студентам получать доступ к лекциям на родном языке, стремясь при этом сохранить оригинальный контент в полном объёме. Наши эксперименты демонстрируют, что транскрипты с учётом слайдов также приносят каскадные преимущества для последующих задач, таких как суммаризация и ответы на вопросы. Мы публикуем наш код для перевода слайдов по адресу https://github.com/saikoneru/image-translator и интегрируем его в Lecture Translator по адресу https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Весь опубликованный код и модели лицензированы по лицензии MIT.}
Современные системы генерации графов сцен из видео (Video Scene Graph Generation, VSGG) обеспечивают структурированное визуальное понимание, но функционируют как замкнутые прямопроходные конвейеры, не способные учитывать указания человека. В отличие от них, промптируемые модели сегментации, такие как SAM2, позволяют точно взаимодействовать с пользователем, но лишены семантического или реляционного анализа. Мы представляем Click2Graph — первую интерактивную платформу для паноптической генерации графов сцен из видео (Panoptic Video Scene Graph Generation, PVSG), которая объединяет визуальное промптирование с пространственным, временным и семантическим пониманием. На основе единственного пользовательского сигнала, такого как клик или ограничивающая рамка, Click2Graph сегментирует и отслеживает субъект во времени, автономно обнаруживает взаимодействующие объекты и предсказывает триплеты <субъект, объект, предикат> для формирования временно согласованного графа сцены. Наша платформа включает два ключевых компонента: модуль динамического обнаружения взаимодействий, который генерирует объектные промты, обусловленные субъектом, и семантический классификатор, выполняющий совместный анализ сущностей и предикатов. Эксперименты на бенчмарке OpenPVSG демонстрируют, что Click2Graph закладывает прочную основу для пользовательско-управляемой PVSG, показывая, как человеческие промты можно комбинировать с паноптическим grounding'ом и реляционным выводом для обеспечения контролируемого и интерпретируемого понимания видеосцен.