HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

48 papers found

DeepSeek-V3.2: Расширяя границы открытых больших языковых моделей
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

Dec 2

ByDeepSeek-AI, Aixin Liu, Aoxue Mei, Bangcai Lin, Bing Xue, Bingxuan Wang, Bingzheng Xu, Bochao Wu, Bowei Zhang, Chaofan Lin, Chen Dong, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenhao Xu, Chong Ruan, Damai Dai, Daya Guo, Dejian Yang, Deli Chen, Erhang Li, Fangqi Zhou, Fangyun Lin, Fucong Dai, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Hanwei Xu, Hao Li, Haofen Liang, Haoran Wei, Haowei Zhang, Haowen Luo, Haozhe Ji, Honghui Ding, Hongxuan Tang, Huanqi Cao, Huazuo Gao, Hui Qu, Hui Zeng, Jialiang Huang, Jiashi Li, Jiaxin Xu, Jiewen Hu, Jingchang Chen, Jingting Xiang, Jingyang Yuan, Jingyuan Cheng, Jinhua Zhu, Jun Ran, Junguang Jiang, Junjie Qiu, Junlong Li, Junxiao Song, Kai Dong, Kaige Gao, Kang Guan, Kexin Huang, Kexing Zhou, Kezhao Huang, Kuai Yu, Lean Wang, Lecong Zhang, Lei Wang, Liang Zhao, Liangsheng Yin, Lihua Guo, Lingxiao Luo, Linwang Ma, Litong Wang, Liyue Zhang, M. S. Di, M. Y Xu, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingxu Zhou, Panpan Huang, Peixin Cong, Peiyi Wang, Qiancheng Wang, Qihao Zhu, Qingyang Li, Qinyu Chen, Qiushi Du, Ruiling Xu, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, Runqiu Yin, Runxin Xu, Ruomeng Shen, Ruoyu Zhang, S. H. Liu, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shaofei Cai, Shaoyuan Chen, Shengding Hu, Shengyu Liu, Shiqiang Hu, Shirong Ma, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, Songyang Zhou, Tao Ni, Tao Yun, Tian Pei, Tian Ye, Tianyuan Yue, Wangding Zeng, Wen Liu, Wenfeng Liang, Wenjie Pang, Wenjing Luo, Wenjun Gao, Wentao Zhang, Xi Gao, Xiangwen Wang, Xiao Bi, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaokang Zhang, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xingkai Yu, Xingyou Li, Xinyu Yang, Xinyuan Li, Xu Chen, Xuecheng Su, Xuehai Pan, Xuheng Lin, Xuwei Fu, Y. Q. Wang, Yang Zhang, Yanhong Xu, Yanru Ma, Yao Li, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Qian, Yi Yu, Yichao Zhang, Yifan Ding, Yifan Shi, Yiliang Xiong, Ying He, Ying Zhou, Yinmin Zhong, Yishi Piao, Yisong Wang, Yixiao Chen, Yixuan Tan, Yixuan Wei, Yiyang Ma, Yiyuan Liu, Yonglun Yang, Yongqiang Guo, Yongtong Wu, Yu Wu, Yuan Cheng, Yuan Ou, Yuanfan Xu, Yuduan Wang, Yue Gong, Yuhan Wu, Yuheng Zou, Yukun Li, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Z. F. Wu, Z. Z. Ren, Zehua Zhao, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhibin Gou, Zhicheng Ma, Zhigang Yan, Zhihong Shao, Zhixian Huang, Zhiyu Wu, Zhuoshu Li, Zhuping Zhang, Zian Xu, Zihao Wang, Zihui Gu, Zijia Zhu, Zilin Li, Zipeng Zhang, Ziwei Xie, Ziyi Gao, Zizheng Pan, Zongqing Yao, Bei Feng, Hui Li, J. L. Cai, Jiaqi Ni, Lei Xu, Meng Li, Ning Tian, R. J. Chen, R. L. Jin, S. S. Li, Shuang Zhou, Tianyu Sun, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xinnan Song, Xinyi Zhou, Y. X. Zhu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Dongjie Ji, Jian Liang, Jianzhong Guo, Jin Chen, Leyi Xia, Miaojun Wang, Mingming Li, Peng Zhang, Ruyi Chen, Shangmian Sun, Shaoqing Wu, Shengfeng Ye, T. Wang, W. L. Xiao, Wei An, Xianzu Wang, Xiaowen Sun, Xiaoxiang Wang, Ying Tang, Yukun Zha, Zekai Zhang, Zhe Ju, Zhen Zhang, Zihua Qu

253

Мы представляем DeepSeek-V3.2 — модель, сочетающую высокую вычислительную эффективность с превосходными показателями в рассуждениях и агентской деятельности. Ключевые технические прорывы DeepSeek-V3.2 заключаются в следующем: (1) Разреженное внимание DeepSeek (DSA): мы представляем DSA — эффективный механизм внимания, который существенно снижает вычислительную сложность, сохраняя при этом производительность модели в сценариях с длинным контекстом. (2) Масштабируемая система обучения с подкреплением: благодаря внедрению надежного протокола обучения с подкреплением и масштабированию вычислений после обучения, DeepSeek-V3.2 демонстрирует результаты, сопоставимые с GPT-5. Примечательно, что наша высокопроизводительная версия DeepSeek-V3.2-Speciale превосходит GPT-5 и показывает уровень рассуждений наравне с Gemini-3.0-Pro, достигнув золотого уровня производительности как на Международной математической олимпиаде (IMO) 2025 года, так и на Международной олимпиаде по информатике (IOI). (3) Конвейер синтеза масштабных агентских задач: для интеграции рассуждений в сценарии использования инструментов мы разработали новый конвейер синтеза, который систематически генерирует обучающие данные в больших масштабах. Данная методология обеспечивает масштабируемое агентское обучение после основной тренировки, приводя к значительному улучшению обобщения и устойчивости к следованию инструкциям в сложных интерактивных средах.

ToolOrchestra: Повышение интеллекта за счет эффективной оркестровки моделей и инструментов
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Nov 26

ByHongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, Jiacheng Xu, Xin Dong, Yonggan Fu, Peter Belcak, Hanrong Ye, Hongxu Yin, Yi Dong, Evelina Bakhturina, Tao Yu, Yejin Choi, Jan Kautz, Pavlo Molchanov

123

Крупные языковые модели являются мощными универсальными системами, однако решение сложных и глубоких проблем, таких как задачи экзамена "Последний рубеж человечества" (HLE), остается как концептуально сложным, так и вычислительно затратным. Мы демонстрируем, что небольшие оркестраторы, управляющие другими моделями и разнообразными инструментами, могут как повысить верхнюю границу интеллектуальных возможностей, так и улучшить эффективность решения сложных агентских задач. Мы представляем ToolOrchestra — метод обучения небольших оркестраторов, координирующих работу интеллектуальных инструментов. ToolOrchestra явным образом использует обучение с подкреплением с учетом наград, ориентированных на результат, эффективность и предпочтения пользователя. С помощью ToolOrchestra мы создали Orchestrator — модель объемом 8 миллиардов параметров, которая достигает более высокой точности при меньшей стоимости по сравнению с предыдущими агентами, использующими инструменты, и при этом соответствует предпочтениям пользователя в выборе инструментов для конкретного запроса. На наборе HLE Orchestrator достигает результата в 37,1%, превосходя GPT-5 (35,1%), будучи при этом в 2,5 раза более эффективным. На наборах tau2-Bench и FRAMES Orchestrator значительно превосходит GPT-5, используя лишь около 30% вычислительных затрат. Обширный анализ показывает, что Orchestrator достигает наилучшего баланса между производительностью и стоимостью по множеству метрик и устойчиво обобщается на незнакомые инструменты. Эти результаты демонстрируют, что компоновка разнообразных инструментов с помощью легковесной модели-оркестратора является как более эффективной, так и более результативной по сравнению с существующими методами, прокладывая путь к практичным и масштабируемым системам рассуждений, усиленным инструментами.

Глубокое исследование: систематический обзор
Deep Research: A Systematic Survey

Nov 24

ByZhengliang Shi, Yiqun Chen, Haitao Li, Weiwei Sun, Shiyu Ni, Yougang Lyu, Run-Ze Fan, Bowen Jin, Yixuan Weng, Minjun Zhu, Qiujie Xie, Xinyu Guo, Qu Yang, Jiayi Wu, Jujia Zhao, Xiaqiang Tang, Xinbei Ma, Cunxiang Wang, Jiaxin Mao, Qingyao Ai, Jen-Tse Huang, Wenxuan Wang, Yue Zhang, Yiming Yang, Zhaopeng Tu, Zhaochun Ren

Крупные языковые модели (LLM) стремительно эволюционировали от генераторов текста к мощным инструментам решения задач. Однако многие открытые задачи требуют критического мышления, использования множества источников и проверяемых результатов, что выходит за рамки одношаговых промптов или стандартного поискового усиления генерации. В последнее время многочисленные исследования исследуют Глубокое Исследование (Deep Research, DR), целью которого является объединение способностей LLM к рассуждению с внешними инструментами, такими как поисковые системы, что позволяет LLM действовать в качестве исследовательских агентов, способных выполнять сложные, открытые задачи. Данный обзор представляет всесторонний и систематический обзор систем глубокого исследования, включая четкую дорожную карту, базовые компоненты, практические методы реализации, важные проблемы и будущие направления. В частности, наши основные вклады заключаются в следующем: (i) мы формализуем трехэтапную дорожную карту и отличаем глубокое исследование от смежных парадигм; (ii) мы представляем четыре ключевых компонента: планирование запросов, получение информации, управление памятью и генерация ответов, каждый из которых сопровождается детализированной субтаксономией; (iii) мы суммируем методы оптимизации, включая промптинг, контролируемое тонкое обучение и агентное обучение с подкреплением; и (iv) мы консолидируем критерии оценки и открытые проблемы, стремясь направлять и способствовать будущему развитию. Поскольку область глубокого исследования продолжает быстро развиваться, мы обязуемся постоянно обновлять этот обзор, чтобы отражать последние достижения в данной области.

MultiShotMaster: Управляемая система генерации многокадрового видео
MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

Dec 2

ByQinghe Wang, Xiaoyu Shi, Baolu Li, Weikang Bian, Quande Liu, Huchuan Lu, Xintao Wang, Pengfei Wan, Kun Gai, Xu Jia

Современные методы генерации видео преуспевают в создании однокадровых клипов, но испытывают трудности с генерацией повествовательных многокадровых видео, которые требуют гибкого расположения кадров, связного повествования и управляемости, выходящей за рамки текстовых промптов. Для решения этих задач мы предлагаем MultiShotMaster — фреймворк для высококонтролируемой генерации многокадрового видео. Мы расширяем предобученную однокадровую модель, интегрируя два новых варианта RoPE. Во-первых, мы представляем Multi-Shot Narrative RoPE, который применяет явный фазовый сдвиг на переходах между кадрами, обеспечивая гибкое расположение кадров при сохранении временного повествовательного порядка. Во-вторых, мы разрабатываем Spatiotemporal Position-Aware RoPE для включения референсных токенов и сигналов привязки, что позволяет осуществлять пространственно-временную инъекцию референсов. Кроме того, для преодоления нехватки данных мы создаем автоматизированный пайплайн аннотирования данных для извлечения многокадровых видео, описаний, межкадровых сигналов привязки и референсных изображений. Наш фреймворк использует внутренние архитектурные свойства для поддержки генерации многокадрового видео, обеспечивая текстовую согласованность между кадрами, кастомизированный объект с контролем движения и кастомизированную сцену на основе фона. Количество кадров и их продолжительность гибко настраиваются. Многочисленные эксперименты демонстрируют превосходную производительность и выдающуюся управляемость нашего фреймворка.

Саморазвивающиеся большие языковые модели с минимальным контролем человека
Guided Self-Evolving LLMs with Minimal Human Supervision

Dec 2

ByWenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu

Давно предполагалось, что саморазвитие искусственного интеллекта является путем к сверхразуму, когда модели автономно приобретают, совершенствуют и усваивают знания из собственного опыта обучения. Однако на практике неуправляемые саморазвивающиеся системы часто быстро выходят на плато или даже деградируют по мере прогресса обучения. Эти неудачи возникают из-за таких проблем, как дрейф концепций, коллапс разнообразия и ошибочная эволюция, когда модели усиливают собственные предубеждения и сходятся к низкоэнтропийному поведению. Чтобы обеспечить стабильное и контролируемое саморазвитие моделей при минимальной зависимости от человеческого контроля, мы представляем R-Few — управляемую структуру «Самопроверки: Испытатель-Решатель», которая включает легковесный человеческий надзор через контекстную привязку и смешанное обучение. На каждой итерации Испытатель выбирает небольшой набор размеченных человеком примеров для направления генерации синтетических вопросов, в то время как Решатель совместно обучается на человеческих и синтетических примерах в рамках онлайн-учебного плана, основанного на сложности. На эталонах математических и общих рассуждений R-Few демонстрирует последовательные и итеративные улучшения. Например, Qwen3-8B-Base улучшает результат на +3.0 пункта по сравнению с R-Zero в математических задачах и достигает производительности на уровне General-Reasoner, несмотря на то, что последний обучался на 20 раз большем объеме человеческих данных. Исследования методом абляции подтверждают взаимодополняющий вклад обучения Испытателя с привязкой и обучения Решателя по учебному плану, а дальнейший анализ показывает, что R-Few смягчает дрейф, обеспечивая более стабильную и управляемую коэволюционную динамику.

MG-Nav: Визуальная навигация с двойным масштабированием на основе разреженной пространственной памяти
MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory

Nov 27

ByBo Wang, Jiehong Lin, Chenzhi Liu, Xinting Hu, Yifei Yu, Tianjia Liu, Zhongrui Wang, Xiaojuan Qi

Мы представляем MG-Nav (Memory-Guided Navigation, навигация с управлением от памяти) — двухуровневую структуру для навигации с нулевым обучением, которая объединяет глобальное планирование на основе памяти с локальным управлением, усиленным геометрией. Её основой является Разреженный Граф Пространственной Памяти (SMG) — компактная, ориентированная на регионы память, где каждый узел агрегирует семантику многовидовых ключевых кадров и объектов, захватывая как внешний вид, так и пространственную структуру, сохраняя при этом разнообразие точек обзора. На глобальном уровне агент локализуется на SMG, и планируется узловой путь, обусловленный целью, с помощью гибридного поиска по изображению и экземпляру, что создает последовательность достижимых путевых точек для долгосрочного руководства. На локальном уровне базовая политика навигации выполняет эти путевые точки в режиме точечной цели с управлением, учитывающим препятствия, и переключается в режим целевого изображения при навигации от конечного узла к визуальной цели. Для дальнейшего улучшения выравнивания точек обзора и распознавания цели мы вводим VGGT-адаптер — легковесный геометрический модуль, построенный на предварительно обученной модели VGGT, который выравнивает признаки наблюдения и цели в общем 3D-ориентированном пространстве. MG-Nav выполняет глобальное планирование и локальное управление на разных частотах, используя периодическую повторную локализацию для коррекции ошибок. Эксперименты на бенчмарках HM3D Instance-Image-Goal и MP3D Image-Goal демонстрируют, что MG-Nav достигает передовой производительности при нулевом обучении и сохраняет устойчивость при динамических перестановках и в условиях незнакомых сцен.

Skywork-R1V4: К агентной мультимодальной интеллектуальной системе через чередующееся мышление с изображениями и глубокое исследование
Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

Dec 2

ByYifan Zhang, Liang Hu, Haofeng Sun, Peiyu Wang, Yichen Wei, Shukang Yin, Jiangbo Pei, Wei Shen, Peng Xia, Yi Peng, Tianyidan Xie, Eric Li, Yang Liu, Xuchen Song, Yahui Zhou

Несмотря на недавний прогресс в мультимодальных агентных системах, существующие подходы часто рассматривают манипуляции с изображениями и веб-поиск как разрозненные возможности, сильно зависят от дорогостоящего обучения с подкреплением и не имеют планирования, основанного на реальных траекториях выполнения инструментов. Чтобы устранить эти ограничения, мы представляем Skywork-R1V4 — мультимодальную агентную модель с 30 миллиардами (30B) параметров, которая объединяет мультимодальное планирование, активное манипулирование изображениями («мышление с помощью изображений»), углубленный мультимодальный поиск и, что наиболее важно, чередующиеся рассуждения, динамически переключающиеся между визуальными операциями и извлечением внешних знаний. Обученная исключительно с помощью контролируемого тонкого настроения на менее чем 30 000 высококачественных, согласованных по планированию и выполнению траекторий и проверенная с помощью пошаговой фильтрации на согласованность, Skywork-R1V4 достигает передовых результатов в различных бенчмарках восприятия и мультимодального поиска: она набирает 66,1 балла на MMSearch и 67,2 балла на FVQA, превосходя Gemini 2.5 Flash по всем 11 метрикам. Skywork-R1V4 демонстрирует emergent долгосрочное планирование на этапе вывода, успешно координируя более 10 вызовов инструментов для решения сложных многошаговых задач. Наши результаты показывают, что сложный агентный мультимодальный интеллект может быть достигнут только за счет тщательно отобранного контролируемого обучения, без какой-либо зависимости от обучения с подкреплением.

DualCamCtrl: Двухветвевая диффузионная модель для геометрически осознанной генерации видео с контролем камеры
DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

Nov 28

ByHongfei Zhang, Kanghao Chen, Zixin Zhang, Harold Haodong Chen, Yuanhuiyi Lyu, Yuqi Zhang, Shuai Yang, Kun Zhou, Yingcong Chen

В данной статье представлена DualCamCtrl — новая end-to-end диффузионная модель для генерации видео с управлением камерой. Современные работы продвинули эту область, представляя позы камеры в виде лучевых условий, однако зачастую им не хватает глубокого понимания сцены и геометрической осведомленности. DualCamCtrl целенаправленно устраняет этот недостаток за счет введения двухпоточной архитектуры, которая взаимно генерирует согласованные по камере последовательности RGB и глубины. Для гармонизации этих двух модальностей мы дополнительно предлагаем механизм семантически управляемого взаимного выравнивания (SIGMA), который выполняет слияние RGB и глубины семантически направленным и взаимно усиливающим образом. Данные решения в совокупности позволяют DualCamCtrl более эффективно разделять моделирование внешнего вида и геометрии, генерируя видео, которые точнее следуют заданным траекториям камеры. Кроме того, мы анализируем и выявляем различное влияние глубины и поз камеры на разных этапах денойзинга, а также демонстрируем, что ранние и поздние стадии играют взаимодополняющую роль в формировании глобальной структуры и детализации локальных элементов. Многочисленные эксперименты показывают, что DualCamCtrl обеспечивает более согласованную генерацию видео с управлением камерой, сокращая ошибки движения камеры более чем на 40% по сравнению с предыдущими методами. Страница проекта: https://soyouthinkyoucantell.github.io/dualcamctrl-page/

SimScale: Обучение вождению через масштабируемое моделирование реальных условий
SimScale: Learning to Drive via Real-World Simulation at Scale

Nov 28

ByHaochen Tian, Tianyu Li, Haochen Liu, Jiazhi Yang, Yihang Qiu, Guang Li, Junli Wang, Yinfeng Gao, Zhang Zhang, Liang Wang, Hangjun Ye, Tieniu Tan, Long Chen, Hongyang Li

Достижение полностью автономных систем вождения требует обучения принятия рациональных решений в широком спектре сценариев, включая критические с точки зрения безопасности и сценарии с выходом за пределы распределения данных. Однако такие случаи недостаточно представлены в реальных данных, собранных экспертами-людьми. Для компенсации недостатка разнообразия данных мы представляем новую масштабируемую симуляционную среду, способную синтезировать массу ненаблюдавшихся состояний на основе существующих журналов вождения. Наш конвейер использует передовой нейронный рендеринг в сочетании с реактивной средой для генерации высококачественных многовидовых наблюдений, управляемых возмущенной траекторией эго-агента. Кроме того, мы разработали механизм генерации псевдоэкспертных траекторий для этих вновь смоделированных состояний, чтобы обеспечить контроль за действиями. На синтезированных данных мы обнаружили, что простая стратегия совместного обучения на реальных и смоделированных примерах может привести к значительному улучшению как устойчивости, так и способности к обобщению для различных методов планирования на сложных реальных тестах: до +6,8 EPDMS на navhard и +2,9 на navtest. Что более важно, такое улучшение политики плавно масштабируется лишь за счет увеличения объема симуляционных данных, даже без дополнительного притока реальных данных. Мы также выявляем несколько ключевых особенностей такой системы обучения «симуляция-реальность», которую мы называем SimScale, включая проектирование псевдоэкспертов и свойства масштабирования для различных архитектур политик. Наши симуляционные данные и код будут опубликованы.

InnoGym: Бенчмаркинг инновационного потенциала ИИ-агентов
InnoGym: Benchmarking the Innovation Potential of AI Agents

Dec 1

ByJintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang

Крупные языковые модели и агенты достигли значительных успехов в генерации кода, математических рассуждениях и научных открытиях. Однако существующие бенчмарки в основном оценивают корректность результатов, игнорируя разнообразие методов, лежащих в основе решений. Истинные инновации зависят не только от получения верных ответов, но и от оригинальности подхода. Мы представляем InnoGym — первый бенчмарк и фреймворк, предназначенный для систематической оценки инновационного потенциала ИИ-агентов. InnoGym вводит две взаимодополняющие метрики: прирост производительности, измеряющий улучшение по сравнению с наилучшими известными решениями, и новизну, фиксирующую методологические отличия от предыдущих подходов. Бенчмарк включает 18 тщательно отобранных задач из реальных инженерных и научных областей, каждая из которых стандартизирована посредством фильтрации ресурсов, валидации оценщиков и сбора решений. Кроме того, мы предоставляем iGym — унифицированную среду исполнения для воспроизводимых и долгосрочных оценок. Масштабные эксперименты показывают, что хотя некоторые агенты генерируют новые подходы, их недостаточная устойчивость ограничивает прирост производительности. Эти результаты выявляют ключевой разрыв между креативностью и эффективностью, подчеркивая необходимость бенчмарков, оценивающих оба аспекта.

SimWorld: Открытый реалистичный симулятор для автономных агентов в физических и социальных мирах
SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds

Nov 30

ByJiawei Ren, Yan Zhuang, Xiaokang Ye, Lingjun Mao, Xuhong He, Jianzhi Shen, Mrinaal Dogra, Yiming Liang, Ruixuan Zhang, Tianai Yue, Yiqing Yang, Eric Liu, Ryan Wu, Kevin Benavente, Rajiv Mandya Nagaraju, Muhammad Faayez, Xiyan Zhang, Dhruv Vivek Sharma, Xianrui Zhong, Ziqiao Ma, Tianmin Shu, Zhiting Hu, Lianhui Qin

Хотя ИИ-агенты на основе больших языковых моделей (LLM) и визуально-языковых моделей (VLM) быстро развиваются в области математики, программирования и работы с компьютером, их применение в сложных физических и социальных средах остается проблематичным. Создание агентов, способных выживать и процветать в реальном мире (например, автономно зарабатывать доход или управлять бизнесом), требует масштабного взаимодействия, рассуждений, обучения и оценки в разнообразных воплощенных сценариях. Однако существующие симуляторы мира для такой разработки несовершенны: они часто опираются на ограниченные ручно созданные среды, моделируют упрощенные игровые физику и социальные правила и не имеют встроенной поддержки агентов LLM/VLM. Мы представляем SimWorld — новый симулятор, построенный на Unreal Engine 5, предназначенный для разработки и оценки агентов LLM/VLM в богатых, приближенных к реальности условиях. SimWorld предлагает три ключевые возможности: (1) реалистичное, открытое моделирование мира, включая точные физические и социальные динамики и процедурное генерацию среды на основе языка; (2) богатый интерфейс для агентов LLM/VLM с мультимодальными входами мира и действиями с открытым словарем на различных уровнях абстракции; и (3) разнообразные и расширяемые сценарии физического и социального мышления, которые легко настраиваются пользователями. Мы демонстрируем SimWorld, развертывая передовые агенты LLM (например, GPT-4o, Gemini-2.5-Flash, Claude-3.5 и DeepSeek-Prover-V2) в долгосрочных многозадачных миссиях доставки, предполагающих стратегическое сотрудничество и конкуренцию. Результаты выявляют различные модели рассуждений и ограничения across моделей. Мы открываем исходный код SimWorld и надеемся, что он станет фундаментальной платформой для развития интеллекта агентов в реальном мире across дисциплин: https://simworld.org.

PixelDiT: Pixel Diffusion Transformers для генерации изображений
PixelDiT: Pixel Diffusion Transformers for Image Generation

Nov 25

ByYongsheng Yu, Wei Xiong, Weili Nie, Yichen Sheng, Shiqiu Liu, Jiebo Luo

Моделирование в латентном пространстве стало стандартом для диффузионных трансформеров (DiT). Однако этот подход основан на двухэтапном пайплайне, в котором предобученный автоэнкодер вносит потери при реконструкции, что приводит к накоплению ошибок и препятствует совместной оптимизации. Для решения этих проблем мы предлагаем PixelDiT — одноэтапную end-to-end модель, которая исключает необходимость использования автоэнкодера и изучает диффузионный процесс непосредственно в пиксельном пространстве. PixelDiT использует полностью трансформерную архитектуру с двухуровневой организацией: DiT на уровне патчей для захвата глобальной семантики и DiT на уровне пикселей для уточнения текстурных деталей, что позволяет эффективно обучать диффузионную модель в пиксельном пространстве с сохранением тонких деталей. Наш анализ показывает, что эффективное моделирование токенов на пиксельном уровне является ключевым фактором успеха пиксельной диффузии. PixelDiT достигает показателя FID 1.61 на ImageNet 256×256, значительно превосходя существующие пиксельные генеративные модели. Мы также расширяем PixelDiT для задач текстово-изобразительной генерации и предварительно обучаем модель в пиксельном пространстве с разрешением 1024×1024. Модель демонстрирует результаты 0.74 на GenEval и 83.5 на DPG-bench, приближаясь к лучшим моделям латентной диффузии.

Glance: Ускорение диффузионных моделей с 1 сэмплом
Glance: Accelerating Diffusion Models with 1 Sample

Dec 2

ByZhuobai Dong, Rui Zhao, Songjie Wu, Junchao Yi, Linjie Li, Zhengyuan Yang, Lijuan Wang, Alex Jinpeng Wang

Диффузионные модели достигли впечатляющих успехов в генерации изображений, однако их практическое применение по-прежнему ограничено высокими вычислительными затратами и необходимостью выполнения многочисленных шагов вывода. Предыдущие попытки дистилляции с меньшим количеством шагов направлены на пропуск избыточных этапов путем обучения компактных моделей-учеников, однако они часто сталкиваются с высокими затратами на переобучение и ухудшением обобщающей способности. В данной работе мы предлагаем иной подход: мы ускоряем интеллектуально, а не равномерно, применяя меньшие коэффициенты ускорения к ранним семантическим стадиям и большие — к поздним избыточным фазам. Мы реализуем эту стратегию, учитывающую фазы, с помощью двух экспертов, специализирующихся на медленных и быстрых фазах денойзинга. Неожиданно, вместо значительных затрат на переобучение моделей-учеников, мы обнаружили, что простое оснащение базовой модели легковесными LoRA-адаптерами позволяет достичь как эффективного ускорения, так и высокой обобщающей способности. Мы называем эти два адаптера Slow-LoRA и Fast-LoRA. В ходе обширных экспериментов наш метод обеспечивает до 5-кратного ускорения по сравнению с базовой моделью при сохранении сопоставимого визуального качества на различных бенчмарках. Примечательно, что эксперты LoRA обучаются всего на 1 изображении на одной видеокарте V100 в течение одного часа, однако полученные модели демонстрируют высокую способность к обобщению на непредвиденных промптах.

WorldMM: Динамический мультимодальный агент памяти для анализа длинных видео
WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

Dec 2

ByWoongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang

Последние достижения в области больших языковых моделей для видео продемонстрировали высокие способности в понимании коротких видеороликов. Однако масштабирование их на видео продолжительностью в часы или дни остается крайне сложной задачей из-за ограниченной емкости контекста и потери критически важных визуальных деталей в процессе абстрагирования. Существующие методы с расширенной памятью смягчают эту проблему, используя текстовые сводки сегментов видео, однако они сильно зависят от текста и не способны задействовать визуальные свидетельства при анализе сложных сцен. Более того, поиск по фиксированным временным масштабам дополнительно ограничивает их гибкость в захвате событий, длящихся переменное время. Для решения этих проблем мы представляем WorldMM — новый мультимодальный агент памяти, который создает несколько взаимодополняющих видов памяти и осуществляет поиск по ним, включая как текстовые, так и визуальные представления. WorldMM состоит из трех типов памяти: эпизодическая память индексирует фактические события в нескольких временных масштабах, семантическая память постоянно обновляет концептуальные знания высокого уровня, а визуальная память сохраняет детальную информацию о сценах. На этапе вывода адаптивный агент поиска итеративно выбирает наиболее релевантный источник памяти и использует несколько уровней временной детализации в зависимости от запроса, продолжая процесс до тех пор, пока не будет собрано достаточно информации. WorldMM значительно превосходит существующие базовые методы на пяти тестовых наборах для вопросно-ответных систем по длинным видео, демонстрируя прирост производительности в среднем на 8,4% по сравнению с предыдущими передовыми методами, что подтверждает его эффективность в решении задач анализа длинных видео.

WUSH: Почти оптимальные адаптивные преобразования для квантования больших языковых моделей
WUSH: Near-Optimal Adaptive Transforms for LLM Quantization

Nov 30

ByJiale Chen, Vage Egiazarian, Torsten Hoefler, Dan Alistarh

Квантование до низкой битовой ширины является стандартным подходом для развертывания больших языковых моделей, однако небольшое количество экстремальных значений весов и активаций растягивает динамический диапазон и снижает эффективное разрешение квантователя. Распространенный метод смягчения проблемы заключается в применении некоторых фиксированных ортогональных преобразований, таких как матрицы Адамара, перед квантованием, что обычно уменьшает динамический диапазон. Тем не менее, эти преобразования игнорируют статистику данных, и их оптимальность в настоящее время не понята. В данной работе мы впервые выводим замкнутые оптимальные линейные блочные преобразования для совместного квантования весов и активаций с использованием стандартных квантователей без данных для распространенных числовых форматов. В частности, мы предоставляем выводы оптимальных адаптивных (учитывающих данные) преобразований для квантователей с округлением до ближайшего (RTN) и с масштабированием по абсолютному максимуму блока для целочисленных и форматов с плавающей запятой. Получившаяся конструкция, которую мы называем WUSH, сочетает основу из преобразования Адамара с компонентом, зависящим от данных и основанным на моментах второго порядка, что дает неортогональное преобразование, которое является доказуемо оптимальным при слабых предположениях и сохраняет структурированность для эффективной реализации. Предварительные экспериментальные результаты показывают, что наш подход последовательно превосходит преобразование Адамара для распространенных форматов.

ViSAudio: Сквозная генерация бинаурального пространственного аудио на основе видео
ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

Dec 2

ByMengchen Zhang, Qi Chen, Tong Wu, Zihan Liu, Dahua Lin

Несмотря на прогресс в генерации аудио из видео, данная область преимущественно сосредоточена на монофоническом выводе, лишённом пространственного погружения. Существующие бинауральные подходы ограничены двухэтапным конвейером, который сначала генерирует монофонический звук, а затем выполняет пространственную обработку, что зачастую приводит к накоплению ошибок и пространственно-временным несоответствиям. Для преодоления этого ограничения мы вводим задачу сквозной генерации бинаурального пространственного аудио непосредственно из беззвучного видео. Для решения этой задачи мы представляем набор данных BiAudio, содержащий около 97 тыс. пар "видео-бинауральный звук", охватывающих разнообразные реальные сцены и траектории вращения камеры, созданный с помощью полуавтоматического конвейера. Кроме того, мы предлагаем ViSAudio — сквозную архитектуру, использующую условное сопоставление потоков с двухкомпонентной структурой генерации аудио, где две специализированные ветви моделируют латентные потоки аудио. Интегрированный с модулем условного пространства-времени, фреймворк обеспечивает баланс согласованности между каналами при сохранении distinctive пространственных характеристик, гарантируя точное пространственно-временное соответствие между звуком и входным видео. Всесторонние эксперименты демонстрируют, что ViSAudio превосходит существующие передовые методы как по объективным метрикам, так и по субъективным оценкам, генерируя бинауральный звук высокого качества с пространственным погружением, который эффективно адаптируется к изменениям точки обзора, движению источников звука и разнообразным акустическим условиям. Страница проекта: https://kszpxxzmc.github.io/ViSAudio-project.

Смешение горизонтов в сегментации действий
Mixture of Horizons in Action Chunking

Nov 24

ByDong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding

Модели «зрение-язык-действие» (VLA) демонстрируют впечатляющие способности в роботизированном манипулировании, однако их производительность чувствительна к длине фрагмента действий (горизонту планирования), используемой во время обучения. Наше эмпирическое исследование выявляет inherent trade-off: более длинные горизонты обеспечивают лучшее глобальное предвидение, но ухудшают точность мелких движений, в то время как короткие горизонты улучшают локальный контроль, но испытывают трудности с долгосрочными задачами, что указывает на субоптимальность фиксированного выбора единого горизонта. Чтобы смягчить этот компромисс, мы предлагаем стратегию смеси горизонтов (MoH). MoH реструктуризирует фрагмент действий на несколько сегментов с разными горизонтами, обрабатывает их параллельно с помощью общего трансформера действий и объединяет выходные данные с помощью легкого линейного гейта. Этот подход имеет три ключевых преимущества. 1) MoH совместно использует долгосрочное предвидение и краткосрочную точность в рамках одной модели, улучшая как производительность, так и обобщаемость на сложные задачи. 2) MoH является plug-and-play решением для action-модулей с полным вниманием, с минимальными накладными расходами на обучение или вывод. 3) MoH позволяет осуществлять динамический вывод с адаптивными горизонтами, который выбирает стабильные действия на основе консенсуса между горизонтами, достигая пропускной способности в 2,5 раза выше, чем у базовых методов, при сохранении превосходной производительности. Многочисленные эксперименты с flow-based политиками π₀, π₀.₅ и one-step регрессионной политикой π_reg показывают, что MoH обеспечивает последовательный и значительный прирост производительности как в симуляциях, так и в реальных задачах. Примечательно, что в условиях mixed-task настройки π₀.₅ с MoH достигает нового state-of-the-art результата со средним показателем успеха 99% на LIBERO после всего 30 тысяч итераций обучения. Страница проекта: https://github.com/Timsty1/MixtureOfHorizons

GoRL: Агностичный к алгоритмам фреймворк для онлайн-обучения с подкреплением с генеративными политиками
GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

Dec 2

ByChubin Zhang, Zhenglin Wan, Feng Chen, Xingrui Yu, Ivor Tsang, Bo An

Обучение с подкреплением (ОП) сталкивается с постоянным противоречием: политики, которые стабильно оптимизируются, часто оказываются слишком простыми для представления многомодальных распределений действий, необходимых для сложного управления. Гауссовские политики обеспечивают удобные для вычисления правдоподобия и гладкие градиенты, но их унимодальная форма ограничивает выразительность. В свою очередь, генеративные политики на основе диффузии или согласования потоков могут моделировать богатое многомодальное поведение; однако в онлайн-ОП они часто нестабильны из-за невычислимых правдоподобий и зашумленных градиентов, распространяющихся через глубокие цепи сэмплирования. Мы разрешаем это противоречие с помощью ключевого структурного принципа: разделения оптимизации и генерации. Основываясь на этом принципе, мы представляем GoRL (Generative Online Reinforcement Learning) — фреймворк, который оптимизирует вычислимую латентную политику, используя при этом условный генеративный декодер для синтеза действий. График обновления по двум временным масштабам позволяет латентной политике обучаться стабильно, в то время как декодер постепенно увеличивает выразительность, не требуя вычислимых правдоподобий действий. На ряде задач непрерывного управления GoRL последовательно превосходит как гауссовские политики, так и современные генеративные подходы. Примечательно, что в задаче HopperStand он достигает нормированного возврата выше 870, что более чем в 3 раза превышает результат сильнейшего базового метода. Эти результаты демонстрируют, что разделение оптимизации и генерации открывает практический путь к созданию политик, которые одновременно стабильны и обладают высокой выразительностью.

Помогает ли слух зрению? Исследование совместного аудио-видео шумоподавления для генерации видео
Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

Dec 2

ByJianzong Wu, Hao Lian, Dachao Hao, Ye Tian, Qingyu Shi, Biaolong Chen, Hao Jiang

Современные аудиовизуальные генеративные системы показывают, что совместная обработка модальностей улучшает не только синхронность аудио и видео, но и саму видеомодальность. Мы ставим фундаментальный вопрос: улучшает ли совместное аудиовизуальное обучение с шумоподавлением генерацию видео, даже когда нас интересует исключительно качество видео? Для исследования этого мы представляем параметрически эффективную архитектуру Audio-Video Full DiT (AVFullDiT), которая использует предобученные модули текст-к-видео (T2V) и текст-к-аудио (T2A) для совместного шумоподавления. Мы обучаем (i) модель T2AV с AVFullDiT и (ii) исключительно видеоцентричный аналог (T2V-only) в идентичных условиях. Наши результаты впервые систематически демонстрируют, что совместное аудиовизуальное шумоподавление дает преимущества, выходящие за рамки синхронизации. Мы наблюдаем устойчивое улучшение на сложных подмножествах данных с крупными движениями и контактами объектов. Мы выдвигаем гипотезу, что прогнозирование аудио выступает в роли привилегированного сигнала, побуждая модель усваивать причинно-следственные связи между визуальными событиями и их акустическими последствиями (например, влияние времени столкновения на звук), что, в свою очередь, регуляризует видео-динамику. Наши выводы свидетельствуют, что кросс-модальное совместное обучение является перспективным подходом для создания более мощных и физически обоснованных моделей мира. Код и набор данных будут опубликованы в открытом доступе.

Загадочный случай аналогий: исследование аналогических рассуждений в больших языковых моделях
The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models

Nov 25

ByTaewhoo Lee, Minju Song, Chanwoong Yoon, Jungwoo Park, Jaewoo Kang

Аналогическое рассуждение лежит в основе человеческого познания, служа важным фундаментом для различных интеллектуальных деятельностей. Хотя предыдущие исследования показали, что большие языковые модели (LLM) способны представлять паттерны задач и поверхностные концепции, остаётся неясным, могут ли эти модели кодировать реляционные концепции высокого уровня и применять их к новым ситуациям через структурированные сравнения. В данной работе мы исследуем этот фундаментальный аспект, используя пропорциональные и сюжетные аналогии, и выявляем три ключевых результата. Во-первых, LLM эффективно кодируют базовые отношения между аналогичными сущностями: как атрибутивная, так и реляционная информация распространяется через средние и верхние слои в правильных случаях, тогда как ошибки рассуждения отражают отсутствие реляционной информации в этих слоях. Во-вторых, в отличие от людей, LLM часто испытывают трудности не только при отсутствии реляционной информации, но и при попытке применить её к новым сущностям. В таких случаях стратегическое исправление скрытых представлений в критических позициях токенов может в определённой степени облегчить передачу информации. Наконец, успешное аналогическое рассуждение в LLM характеризуется сильным структурным выравниванием между аналогичными ситуациями, тогда как неудачи часто отражают деградировавшее или смещённое выравнивание. В целом наши результаты показывают, что LLM демонстрируют формирующиеся, но ограниченные способности в кодировании и применении реляционных концепций высокого уровня, подчёркивая как сходства, так и разрывы с человеческим познанием.

CUDA-L2: Превышение производительности cuBLAS для матричного умножения с помощью обучения с подкреплением
CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

Dec 2

BySongqiao Su, Xiaofei Sun, Xiaoya Li, Albert Wang, Jiwei Li, Chris Shum

В данной статье мы представляем CUDA-L2 — систему, которая объединяет большие языковые модели (LLM) и обучение с подкреплением (RL) для автоматической оптимизации CUDA-ядёр Half-precision General Matrix Multiply (HGEMM). Используя скорость выполнения CUDA в качестве вознаграждения RL, CUDA-L2 автоматически оптимизирует ядра HGEMM для 1000 конфигураций. CUDA-L2 систематически превосходит основные базовые реализации матричного умножения на сегодняшний день, от широко используемого {\it torch.matmul} до современных закрытых библиотек Nvidia, таких как {\it cuBLAS} и {\it cuBLASLt}. В автономном режиме, где ядра выполняются последовательно без временных интервалов, CUDA-L2 в среднем демонстрирует прирост производительности на +22,0% по сравнению с {\it torch.matmul}; на +19,2% по сравнению с {\it cuBLAS} при использовании оптимальной конфигурации макета (нормальный-нормальный, NN и транспонированный-нормальный, TN); на +16,8% по сравнению с {\it cuBLASLt-heuristic}, который запрашивает библиотеку {\it cuBLASLt} и выбирает алгоритм на основе предложения эвристики; и на +11,4% по сравнению с наиболее конкурентоспособной моделью {\it cuBLASLt-AutoTuning}, которая выбирает самый быстрый алгоритм из до 100 кандидатов, предложенных {\it cuBLASLt}. В серверном режиме, где ядра выполняются со случайными интервалами, имитирующими инференс в реальном времени, ускорение дополнительно возрастает до +28,7%, +26,0%, +22,4% и +15,9% для {\it torch.matmul}, {\it cuBLAS}, {\it cuBLASLt-heuristic} и {\it cuBLASLt-AutoTuning} соответственно. CUDA-L2 демонстрирует, что даже наиболее критичные к производительности, тщательно оптимизированные ядра, такие как HGEMM, можно улучшить с помощью автоматизации на основе RL, управляемого LLM, за счёт систематического исследования пространств конфигураций в масштабах, недостижимых для человека. Проект и код доступны по адресу github.com/deepreinforce-ai/CUDA-L2.

MagicQuillV2: Точное и интерактивное редактирование изображений с использованием многоуровневых визуальных подсказок
MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

Dec 2

ByZichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Shuailei Ma, Ka Leong Cheng, Wen Wang, Qingyan Bai, Yuxuan Zhang, Yanhong Zeng, Yixuan Li, Xing Zhu, Yujun Shen, Qifeng Chen

Мы представляем MagicQuill V2 — новую систему, которая вводит парадигму многоуровневой композиции в генеративное редактирование изображений, преодолевая разрыв между семантической мощью диффузионных моделей и детальным контролем традиционного графического программного обеспечения. Хотя диффузионные трансформеры превосходно справляются с целостной генерацией, использование ими единых монолитных промтов не позволяет разделить различные пользовательские интенции, касающиеся содержания, позиционирования и внешнего вида. Для решения этой проблемы наш метод декомпозирует творческий замысел в стек управляемых визуальных сигналов: слой содержания (что создавать), пространственный слой (где разместить), структурный слой (как сформировано) и цветовой слой (палитра). Наши технические достижения включают специализированный пайплайн генерации данных для контекстно-зависимой интеграции контента, унифицированный модуль управления для обработки всех визуальных сигналов и дообученную пространственную ветвь для точного локального редактирования, включая удаление объектов. Многочисленные эксперименты подтверждают, что данный многоуровневый подход эффективно устраняет разрыв в интерпретации намерений пользователя, предоставляя создателям прямой и интуитивный контроль над генеративным процессом.

TRivia: Самообучение с тонкой настройкой визуально-языковых моделей для распознавания таблиц
TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

Dec 1

ByJunyuan Zhang, Bin Wang, Qintong Zhang, Fan Wu, Zichen Wen, Jialin Lu, Junjie Shan, Ziqi Zhao, Shuya Yang, Ziling Wang, Ziyang Miao, Huaping Zhong, Yuhang Zang, Xiaoyi Dong, Ka-Ho Chow, Conghui He

Распознавание таблиц (TR) ставит целью преобразование изображений таблиц в полуструктурированные представления, такие как HTML или Markdown. Будучи ключевым компонентом парсинга документов, TR долгое время опирался на обучение с учителем, а в последнее время доминируют подходы с дообучением визуально-языковых моделей (VLM) на размеченных данных. Хотя VLM вывели TR на новый уровень, дальнейшее повышение производительности требует крупномасштабных размеченных данных, получение которых дорогостояще. Как следствие, хотя проприетарные модели постоянно расширяют границы возможностей, модели с открытым исходным кодом, часто обучаемые с ограниченными ресурсами и на практике являющиеся единственным жизнеспособным вариантом для многих из-за нормативов конфиденциальности, все еще значительно отстают. Чтобы сократить этот разрыв, мы представляем TRivia — метод самообучаемого дообучения, который позволяет предобученным VLM изучать TR непосредственно из немаркированных изображений таблиц в естественных условиях. Построенный на основе Group Relative Policy Optimization, TRivia автоматически идентифицирует немаркированные примеры, которые наиболее эффективно способствуют обучению, и устраняет необходимость в человеческих разметках через механизм вознаграждений на основе вопросно-ответной системы. Модуль с управлением вниманием генерирует разнообразные вопросы для каждого изображения таблицы, а способность интерпретировать результаты распознавания и правильно отвечать на них предоставляет обратную связь для оптимизации TR-модели. Этот замкнутый процесс позволяет TR-модели автономно обучаться распознаванию, структурированию и логическому анализу таблиц без размеченных данных. Используя этот конвейер, мы представляем TRivia-3B — открытую, компактную и передовую TR-модель, которая превосходит существующие системы (например, Gemini 2.5 Pro, MinerU2.5) на трех популярных бенчмарках. Модель и код доступны по адресу: https://github.com/opendatalab/TRivia

DiG-Flow: Дискрепанс-ориентированное согласование потоков для создания устойчивых VLA-моделей
DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

Dec 1

ByWanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Yicheng Feng, Sipeng Zheng, Qin Jin, Zongqing Lu

Модели Vision-Language-Action (VLA), обученные с помощью сопоставления потоков (flow matching), продемонстрировали впечатляющие возможности в задачах роботизированного манипулирования. Однако их производительность часто снижается при сдвиге распределения и на сложных многошаговых задачах, что позволяет предположить, что изученные представления могут недостаточно устойчиво отражать релевантную задаче семантику. Мы представляем DiG-Flow — принципиальную архитектуру, которая повышает устойчивость VLA за счет геометрической регуляризации. Наше ключевое наблюдение заключается в том, что распределительное расхождение между эмбеддингами наблюдений и действий предоставляет содержательный геометрический сигнал: меньшая стоимость транспортировки указывает на совместимые представления, тогда как более высокая стоимость свидетельствует о потенциальном рассогласовании. DiG-Flow вычисляет меру расхождения между эмпирическими распределениями эмбеддингов наблюдений и действий, отображает её в весовой коэффициент модуляции с помощью монотонной функции и применяет остаточные поправки к эмбеддингам наблюдений до этапа сопоставления потоков. Важно, что это вмешательство работает на уровне представлений, не изменяя путь сопоставления потоков или целевое векторное поле. Мы предоставляем теоретические гарантии, показывающие, что обучение с управлением по расхождению гарантированно уменьшает целевую функцию обучения, а управляемое уточнение при выводе сходится со сжатием. Экспериментально DiG-Flow интегрируется в существующие архитектуры VLA с незначительными накладными расходами и последовательно улучшает производительность, с особенно заметным приростом на сложных многошаговых задачах и в условиях ограниченного объема обучающих данных.

RULER-Bench: Исследование способностей моделей генерации видео следующего уровня к рассуждению на основе правил для фундаментального интеллекта в области компьютерного зрения
RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence

Dec 2

ByXuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu

Последние достижения в области генерации видео позволили синтезировать видеоролики с высокой временной согласованностью и впечатляющим визуальным качеством, что знаменует важный шаг на пути к созданию фундаментальных моделей компьютерного зрения. Существующие бенчмарки для оценки таких моделей в основном сосредоточены на аспектах, связанных с визуальным восприятием и пониманием, таких как эстетика изображения, соответствие инструкциям и временная целостность. Однако способности моделей генерации видео к логическому выводу на основе правил остаются в значительной степени неисследованными. Хотя недавние исследования провели предварительный анализ возможности использования видео-моделей в качестве обучаемых "с нуля", в них по-прежнему отсутствует детальная декомпозиция логических способностей и комплексный протокол оценки. Для устранения этого пробела мы представляем RULER-Bench — бенчмарк, предназначенный для оценки способности к логическому выводу моделей генерации видео с точки зрения когнитивных правил. Построенный на двух фундаментальных парадигмах — текстовое-описание-в-видео и изображение-в-видео — RULER-Bench охватывает 40 репрезентативных задач из шести категорий правил с 622 экземплярами высококачественных аннотаций. Для оценки каждого сгенерированного видео мы создали контрольный список из четырёх метрик и использовали GPT-4o для присвоения баллов каждому вопросу, достигнув 85% согласованности с человеческими оценками. Масштабные эксперименты показывают, что современная модель достигает лишь 48,87% по метрике согласованности с правилами, что указывает на значительный потенциал для улучшения логических способностей видео-моделей следующего поколения. Мы ожидаем, что инсайты, полученные с помощью RULER-Bench, будут способствовать дальнейшему развитию генерации видео с учётом логического вывода, продвигая модели к созданию фундаментального искусственного интеллекта для компьютерного зрения.

Переосмысление необходимости длинных цепочек рассуждений в обобщении визуально-ориентированных выводов
Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

Nov 27

ByYifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu

Мы исследуем, как различные конструкции цепочки рассуждений (CoT) влияют на формирование обобщаемой способности к визуальному мышлению в визуально-языковых моделях (VLM). Хотя данные CoT, особенно длинные или визуальные, такие как «рассуждение с изображением», широко используются для контроля промежуточных логических шагов, до сих пор неясно, почему конкретные конструкции CoT помогают и какие из них действительно способствуют обобщаемому мышлению. Для систематической оценки этого мы используем контролируемый бенчмарк решения лабиринтов, где правила рассуждений полностью визуальны, сложность может настраиваться размером сетки, а все промежуточные шаги могут генерироваться автоматически. Используя модель Qwen2.5-VL-7B в рамках стандартного пайплайна SFT-then-RL, мы сравниваем три репрезентативных формата CoT: языковой CoT, CoT с привязкой к пространству (с траекториями пространственных координат) и визуальный CoT (с манипуляциями над изображением). Наши эксперименты показывают, что визуальные и более длинные CoT в основном ускоряют сходимость, но не повышают итоговый порог производительности; лаконичный CoT, содержащий только ключевые шаги привязки, превосходит по эффективности более длинные последовательности; и, что примечательно, CoT, сохраняющий лишь минимально необходимую привязку, лучше всего обобщается на лабиринтах разного размера. Мы дополнительно проверяем эти выводы на других визуально-ориентированных задачах. Полученные результаты демонстрируют эффект «краткость — сестра таланта» и дают практические рекомендации по построению более обобщаемых наборов данных SFT для визуального мышления.

SwiftVLA: Раскрытие пространственно-временной динамики для облегченных моделей VLA с минимальными накладными расходами
SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead

Nov 30

ByChaojun Ni, Cheng Chen, Xiaofeng Wang, Zheng Zhu, Wenzhao Zheng, Boyuan Wang, Tianrun Chen, Guosheng Zhao, Haoyun Li, Zhehao Dong, Qiang Zhang, Yun Ye, Yang Wang, Guan Huang, Wenjun Mei

Модели "Vision-Language-Action" (VLA), построенные на предварительно обученных моделях "Vision-Language" (VLM), демонстрируют значительный потенциал, но их практическое применение ограничено из-за большого количества параметров. Для решения этой проблемы изучалось использование облегченных VLM, однако это приводит к ухудшению пространственно-временного анализа. Хотя некоторые методы предлагают использовать дополнительные 3D-данные для улучшения ситуации, они обычно полагаются на крупные VLM для объединения 3D и 2D входных данных и все равно не обеспечивают полноценного временного понимания. Поэтому мы предлагаем SwiftVLA — архитектуру, которая наделяет компактную модель пониманием 4D-данных, сохраняя при этом эффективность проектирования. В частности, наш подход включает предварительно обученный 4D-трансформер визуальной геометрии с временным кэшем, который извлекает 4D-признаки из 2D-изображений. Затем, чтобы расширить возможности VLM по использованию как 2D-изображений, так и 4D-признаков, мы вводим Fusion Tokens — набор обучаемых токенов, которые тренируются с целью предсказания будущего состояния для генерации унифицированных представлений, используемых при создании действий. Наконец, мы предлагаем стратегию "маскирования и восстановления", которая маскирует 4D-входы для VLM и обучает модель VLA их восстанавливать. Это позволяет VLM освоить эффективные 4D-представления и дает возможность отключить 4D-ветку на этапе inference с минимальной потерей производительности. Эксперименты в реальных и симулированных средах показывают, что SwiftVLA превосходит облегченные базовые модели и конкурирует с VLA, которые до 7 раз крупнее, достигая сопоставимой производительности на периферийных устройствах при ускорении в 18 раз и сокращении объема используемой памяти в 12 раз.

Video4Spatial: К визуально-пространственному интеллекту через генерацию видео с контекстным управлением
Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation

Dec 2

ByZeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Yu Ning, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan

Мы исследуем, способны ли видео-генеративные модели проявлять визуально-пространственный интеллект — ключевую способность человеческого познания — используя только визуальные данные. Для этого мы представляем Video4Spatial, фреймворк, который демонстрирует, что видео-диффузионные модели, обученные исключительно на видео-контексте сцены, могут выполнять сложные пространственные задачи. Мы проводим валидацию на двух задачах: навигации в сцене — следовании инструкциям по изменению положения камеры с сохранением соответствия 3D-геометрии сцены, и локализации объектов — что требует семантической локализации, следования инструкциям и планирования. Обе задачи используют только видео-входные данные, без вспомогательных модальностей, таких как глубина или позы. Благодаря простым, но эффективным проектным решениям в архитектуре фреймворка и курации данных, Video4Spatial демонстрирует глубокое понимание пространства из видео-контекста: модель осуществляет планирование навигации и сквозную локализацию целевых объектов, следует инструкциям по положению камеры, сохраняя пространственную согласованность, и обобщает для длинных контекстов и сред, не представленных в обучающих данных. В совокупности эти результаты продвигают видео-генеративные модели в сторону общих рассуждений о визуально-пространственной среде.

PAI-Bench: Комплексный бенчмарк для физического искусственного интеллекта
PAI-Bench: A Comprehensive Benchmark For Physical AI

Dec 1

ByFengzhe Zhou, Jiannan Huang, Jialuo Li, Deva Ramanan, Humphrey Shi

Физический искусственный интеллект (Physical AI) ставит целью разработку моделей, способных воспринимать и предсказывать динамику реального мира; однако степень, в которой современные мультимодальные большие языковые модели и модели генерации видео поддерживают эти способности, изучена недостаточно. Мы представляем Physical AI Bench (PAI-Bench) — унифицированный и комплексный бенчмарк, который оценивает возможности восприятия и прогнозирования в задачах генерации видео, условной генерации видео и понимания видео. Бенчмарк включает 2 808 реальных сценариев с метриками, согласованными с задачами и разработанными для оценки физической правдоподобности и предметно-ориентированных рассуждений. Наше исследование предлагает систематическую оценку современных моделей и показывает, что модели генерации видео, несмотря на высокую визуальную достоверность, часто не способны сохранять физически согласованную динамику, в то время как мультимодальные большие языковые модели демонстрируют ограниченную производительность в прогнозировании и каузальной интерпретации. Эти наблюдения свидетельствуют о том, что современные системы всё ещё находятся на ранней стадии решения перцептивных и прогностических задач Физического ИИ. В итоге, PAI-Bench закладывает реалистичную основу для оценки Физического ИИ и выявляет ключевые пробелы, которые должны быть устранены в будущих системах.

Технический отчет Ovis-Image
Ovis-Image Technical Report

Nov 28

ByGuo-Hua Wang, Liangfu Cao, Tianyu Cui, Minghao Fu, Xiaohao Chen, Pengxin Zhan, Jianshan Zhao, Lan Li, Bowen Fu, Jiaqi Liu, Qing-Guo Chen

Мы представляем Ovis-Image — 7-миллиардную тексто-визуальную модель, специально оптимизированную для высококачественного рендеринга текста и предназначенную для эффективной работы в условиях строгих вычислительных ограничений. Построенная на основе нашей предыдущей архитектуры Ovis-U1, модель Ovis-Image интегрирует диффузионный визуальный декодер с более мощной мультимодальной основой Ovis 2.5, используя ориентированный на текст конвейер обучения, который сочетает масштабное предварительное обучение с тщательно подобранными пост-тренировочными доработками. Несмотря на компактную архитектуру, Ovis-Image демонстрирует качество рендеринга текста, сопоставимое с значительно более крупными открытыми моделями, такими как Qwen-Image, и приближается к проприетарным системам, таким как Seedream и GPT4o. Ключевым преимуществом является возможность развертывания модели на одной высокопроизводительной GPU с умеренным объемом памяти, что сокращает разрыв между передовыми возможностями рендеринга текста и практическим внедрением. Наши результаты показывают, что комбинация мощной мультимодальной основы с тщательно разработанным, ориентированным на текст подходом к обучению позволяет достичь надежного двуязычного рендеринга текста без привлечения избыточно больших или проприетарных моделей.

YingVideo-MV: Многоэтапная генерация видео на основе музыки
YingVideo-MV: Music-Driven Multi-Stage Video Generation

Dec 2

ByJiahui Chen, Weida Wang, Runhua Shi, Huan Yang, Chaofan Ding, Zihao Chen

Хотя диффузионные модели для генерации видеоаватаров на основе аудио достигли значительного прогресса в синтезе длинных последовательностей с естественной аудиовизуальной синхронизацией и идентичностью, генерация видеороликов музыкальных выступлений с движением камеры остается малоизученной. Мы представляем YingVideo-MV — первую каскадную архитектуру для генерации длинных видео на основе музыки. Наш подход интегрирует семантический анализ аудио, интерпретируемый модуль планирования кадров (MV-Director), темпорально-ориентированные диффузионные Transformer-архитектуры и моделирование согласованности длинных последовательностей для автоматического синтеза высококачественных видео музыкальных выступлений из аудиосигналов. Мы создали масштабный набор данных Music-in-the-Wild, собрав веб-данные для достижения разнообразных и качественных результатов. Отметив, что существующие методы генерации длинного видео не имеют явного управления движением камеры, мы вводим модуль адаптера камеры, встраивающий позы камеры в латентный шум. Для улучшения непрерывности между клипами при выводе длинных последовательностей мы дополнительно предлагаем стратегию динамического временного окна, которая адаптивно регулирует диапазоны дениоинга на основе аудио-эмбеддингов. Комплексные тесты показывают, что YingVideo-MV демонстрирует выдающуюся производительность в генерации связных и выразительных музыкальных видео с точной синхронизацией музыка-движение-камера. Дополнительные видео доступны на странице проекта: https://giantailab.github.io/YingVideo-MV/.

Бенчмаркинг научного понимания и рассуждений для генерации видео с использованием VideoScience-Bench
Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench

Dec 2

ByLanxiang Hu, Abhilash Shankarampeta, Yixin Huang, Zilin Dai, Haoyang Yu, Yujie Zhao, Haoqiang Kang, Daniel Zhao, Tajana Rosing, Hao Zhang

Следующим рубежом в области генерации видео является разработка моделей, способных к рассуждениям в режиме zero-shot, где понимание реальных научных законов крайне важно для точного моделирования физических результатов в различных условиях. Однако существующие видео-бенчмарки основаны на физической здравой логике (commonsense) и дают ограниченное представление о способности видео-моделей к научным рассуждениям. Мы представляем VideoScience-Bench — бенчмарк, разработанный для оценки понимания научных концепций уровня бакалавриата в видео-моделях. Каждый промпт кодирует составной научный сценарий, который требует понимания и рассуждений на основе множества научных концепций для генерации корректного явления. Бенчмарк включает 200 тщательно отобранных промптов, охватывающих 14 тем и 103 концепции в области физики и химии. Мы проводим экспертно-аннотированные оценки семи передовых видео-моделей в настройках T2V (текст-в-видео) и I2V (изображение-в-видео) по пяти измерениям: соответствие промпту, соответствие явления, корректная динамика, неизменяемость и пространственно-временная непрерывность. Используя VLM-as-a-Judge для оценки сгенерированных видео, мы наблюдаем сильную корреляцию с человеческими оценками. Насколько нам известно, VideoScience-Bench является первым бенчмарком, который оценивает видео-модели не только как генераторы, но и как системы, способные к рассуждениям, требуя, чтобы их генерации демонстрировали научное понимание, согласующееся с ожидаемыми физическими и химическими явлениями. Наши данные и код для оценки доступны по адресу: https://github.com/hao-ai-lab/VideoScience.

BlockVid: Блочная диффузия для генерации высококачественных и согласованных минутных видео
BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

Nov 28

ByZeyu Zhang, Shuning Chang, Yuanyu He, Yizeng Han, Jiasheng Tang, Fan Wang, Bohan Zhuang

Создание минутных видео является ключевым шагом на пути к разработке мировых моделей, обеспечивая основу для реалистичных протяженных сцен и продвинутых ИИ-симуляторов. Появляющаяся полуавторегрессионная парадигма (блочная диффузия) объединяет преимущества диффузионных и авторегрессионных моделей, позволяя генерировать видео произвольной длины и повышая эффективность вывода за счет KV-кэширования и параллельного сэмплирования. Однако она сталкивается с двумя сохраняющимися проблемами: (i) накоплением ошибок на длинных горизонтах, вызванным KV-кэшем, и (ii) отсутствием детализированных бенчмарков для длинных видео и метрик, учитывающих согласованность. Для преодоления этих ограничений мы предлагаем BlockVid — новую框架 блочной диффузии, оснащенную семантически осознанным разреженным KV-кэшем, эффективной стратегией обучения под названием Block Forcing, а также специализированным покусочным планированием шума и перемешиванием для снижения распространения ошибок и улучшения временной согласованности. Мы также представляем LV-Bench — детализированный бенчмарк для минутных видео, включающий новые метрики для оценки долгосрочной согласованности. Многочисленные эксперименты на VBench и LV-Bench демонстрируют, что BlockVid стабильно превосходит существующие методы в генерации высококачественных, согласованных минутных видео. В частности, он достигает улучшения на 22,2% по VDE Subject и на 19,4% по VDE Clarity в LV-Bench по сравнению с передовыми подходами. Веб-сайт проекта: https://ziplab.co/BlockVid. Inferix (Код): https://github.com/alibaba-damo-academy/Inferix.

UnicEdit-10M: Набор данных и эталонный тест, преодолевающий барьер масштаба и качества с помощью унифицированной верификации для обогащенных логикой правок
UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

Dec 1

ByKeming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang

Стремительное развитие мощных мультимодальных моделей, таких как GPT-4o, Nano Banana и Seedream 4.0, в области редактирования изображений ведет к увеличению разрыва в производительности между проприетарными и открытыми моделями. Это связано в первую очередь с нехваткой крупномасштабных высококачественных данных для обучения, а также всесторонних бенчмарков, способных диагностировать слабые места моделей при выполнении разнообразных задач редактирования. Существующие методы создания данных сталкиваются с компромиссом между масштабом и качеством: человеческие аннотации обладают высоким качеством, но плохо масштабируются, тогда как автоматизированные пайплайны страдают от распространения ошибок и зашумленности. Для решения этой проблемы мы представляем легковесный пайплайн, который заменяет многокомпонентные инструментальные цепочки на сквозную модель и унифицированный этап пост-проверки. Для масштабируемого контроля качества мы обучаем 7-миллиардную экспертную модель с двумя задачами, Qwen-Verify, для эффективного обнаружения ошибок и переописания инструкций. Данный пайплайн позволяет создать UnicEdit-10M — набор данных масштабом 10 миллионов примеров, охватывающий разнообразные базовые и сложные задачи редактирования. Мы также предлагаем UnicBench, универсальный бенчмарк, который выходит за рамки базового редактирования и явно оценивает пространственные и основанные на знаниях рассуждения. Для обеспечения детальной диагностики мы вводим новые метрики, включая **Нередактируемую Согласованность** и **Точность Рассуждений**. Наш анализ основных моделей на UnicBench выявляет их ограничения и определяет четкие направления для будущих исследований.

Лаборатория исследования графического интерфейса: улучшение навигации по экрану в агентах с помощью многошагового обучения с подкреплением
GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning

Dec 2

ByHaolong Yan, Yeqing Shen, Xin Huang, Jia Wang, Kaijun Tan, Zhixuan Liang, Hongxin Li, Zheng Ge, Osamu Yoshie, Si Li, Xiangyu Zhang, Daxin Jiang

С быстрым развитием больших визуально-языковых моделей фокус задач агентов графического интерфейса пользователя (GUI) смещается от задач на одном экране к сложным проблемам навигации между экранами. Однако реальные GUI-среды, такие как ПО для ПК и мобильные приложения, часто являются сложными и проприетарными, что затрудняет получение полной информации о среде, необходимой для обучения и оценки агентов. Это ограничение препятствует систематическому исследованию и бенчмаркингу возможностей навигации агентов. Чтобы устранить это ограничение, мы представляем GUI Exploration Lab — механизм среды имитации для исследования навигации GUI-агентов, который позволяет гибко определять и комбинировать экраны, иконки и графы навигации, предоставляя при этом полный доступ к информации о среде для всестороннего обучения и оценки агентов. В ходе обширных экспериментов мы обнаружили, что обучение с учителем позволяет эффективно запоминать базовые знания, служа crucialным фундаментом для последующего обучения. На этой основе обучение с подкреплением в один шаг дополнительно улучшает обобщающую способность для непредвиденных сценариев. Наконец, многошаговое обучение с подкреплением стимулирует разработку стратегий исследования через интерактивные пробы и ошибки, что приводит к дальнейшему повышению производительности навигации по экранам. Мы проверяем наши методы на статических и интерактивных бенчмарках, демонстрируя, что наши выводы эффективно обобщаются на реальные сценарии. Эти результаты демонстрируют преимущества подходов обучения с подкреплением в GUI-навигации и предлагают практические рекомендации для создания более способных и обобщаемых GUI-агентов.

C^2DLM: Диффузионные большие языковые модели с причинно-смысловым управлением
C^2DLM: Causal Concept-Guided Diffusion Large Language Models

Nov 27

ByKairong Han, Nuanqiao Shan, Ziyu Zhao, Zijing Hu, Xinpeng Dong, Junjian Ye, Lujia Pan, Fei Wu, Kun Kuang

Авторегрессионные (AR) языковые модели и Диффузионные языковые модели (DLM) представляют собой две основные парадигмы больших языковых моделей. Однако обе парадигмы страдают от недостаточных способностей к логическому выводу. Человеческое рассуждение по своей природе опирается на каузальные знания и мышление, что находит отражение в естественном языке. Но в AR-парадигме язык моделируется как предсказание следующего токена (строго слева направо, токен за токеном), тогда как сам естественный язык демонстрирует более гибкие причинно-следственные структуры. В DLM-парадигме механизм внимания является полностью связанным, что полностью игнорирует причинный порядок. Чтобы заполнить этот пробел, мы предлагаем **К**аузальную **К**онцептуально-**У**правляемую **Д**иффузионную **Я**зыковую **М**одель (C²DLM). Исходя из полностью связанного внимания DLM, C²DLM сначала получает причинно-следственный граф на уровне концептов от учительской модели, а затем явно направляет внимание на изучение причинно-следственных связей между концептами. Сосредоточившись на причинно-следственных связях и избегая вмешательства сложных подзадач, связанных с каузальной инверсией, C²DLM улучшает результат на 12% с ускорением обучения примерно в 3,2 раза в задаче COT-OrderPerturb и демонстрирует средний прирост в 1,31% на шести задачах логического вывода. Подробнее в репозитории ~https://github.com/Kairong-Han/C-2-DLM{здесь}.

За пределами описания: когнитивное тестирование точных действий для воплощенных агентов
Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents

Nov 24

ByDayong Liu, Chao Xu, Weihong Chen, Suyu Zhang, Juncheng Wang, Jiankang Deng, Baigui Sun, Yang Liu

Мультимодальные большие языковые модели (MLLM) демонстрируют обнадеживающие результаты в качестве систем принятия решений для воплощенных агентов, действующих в сложных физических средах. Однако существующие бенчмарки часто делают акцент на высокоуровневом планировании или пространственных рассуждениях, оставляя недостаточно изученным тонкий интеллект действий, необходимый для физического взаимодействия. Чтобы восполнить этот пробел, мы представляем CFG-Bench — новый бенчмарк, разработанный для систематической оценки этой ключевой способности. CFG-Bench состоит из 1368 отобранных видеороликов, сопряженных с 19 562 парами «вопрос-ответ» по трем модальностям, нацеленным на четыре когнитивные способности: 1) Физическое взаимодействие, 2) Временные-причинные отношения, 3) Понимание намерений и 4) Оценочное суждение. В совокупности эти измерения предоставляют систематическую основу для оценки способности модели преобразовывать визуальные наблюдения в практические знания, выходя за рамки простого поверхностного распознавания. Наше всестороннее тестирование на CFG-Bench показывает, что ведущие MLLM испытывают трудности с генерацией детальных инструкций для физического взаимодействия и демонстрируют серьезные ограничения в сложных рассуждениях о намерениях и оценках. Более того, контролируемое тонкое обучение (SFT) на наших данных демонстрирует, что обучение MLLM формулировать тонкие действия напрямую приводит к значительному росту производительности на устоявшихся бенчмарках для воплощенных агентов. Наш анализ выявляет эти ограничения и предлагает идеи для разработки более способных и обоснованных воплощенных агентов.

Visual Sync: Синхронизация нескольких камер на основе кросс-вью анализа движения объектов
Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion

Dec 1

ByShaowei Liu, David Yifan Yao, Saurabh Gupta, Shenlong Wang

Сегодня люди могут легко записывать памятные моменты — концерты, спортивные мероприятия, лекции, семейные встречи и дни рождения — с помощью множества потребительских камер. Однако синхронизация этих потоков с разных камер остается сложной задачей. Существующие методы предполагают контролируемые условия съемки, специфические цели, ручную коррекцию или дорогостоящее оборудование. Мы представляем VisualSync — оптимизационный фреймворк, основанный на многовидовой динамике, который выравнивает непозированные и несинхронизированные видео с точностью до миллисекунды. Наше ключевое наблюдение заключается в том, что любая движущаяся 3D-точка, будучи видимой в двух камерах, подчиняется эпиполярным ограничениям при правильной синхронизации. Для этого VisualSync использует готовые решения для 3D-реконструкции, сопоставления признаков и плотного отслеживания для извлечения треклетов, относительных поз и соответствий между видами. Затем метод совместно минимизирует эпиполярную ошибку для оценки временного смещения каждой камеры. Эксперименты на четырех разнообразных сложных наборах данных показывают, что VisualSync превосходит базовые методы, достигая медианной ошибки синхронизации менее 50 мс.

FlashVGGT: Эффективные и масштабируемые трансформеры визуальной геометрии со сжатым дескрипторным вниманием
FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention

Dec 1

ByZipeng Wang, Dan Xu

Трехмерная реконструкция по многовидовым изображениям является ключевой задачей компьютерного зрения. В последнее время прямые (feed-forward) методы стали эффективной и надежной альтернативой традиционным техникам оптимизации для отдельной сцены. Среди них передовые модели, такие как Visual Geometry Grounding Transformer (VGGT), используют полное самовнимание (self-attention) ко всем токенам изображений для захвата глобальных зависимостей. Однако этот подход страдает от плохой масштабируемости из-за квадратичной сложности самовнимания и большого количества токенов, генерируемых в длинных последовательностях изображений. В данной работе мы представляем FlashVGGT — эффективную альтернативу, которая решает это узкое место с помощью механизма внимания на основе дескрипторов. Вместо применения плотного глобального внимания ко всем токенам, FlashVGGT сжимает пространственную информацию из каждого кадра в компактный набор токенов-дескрипторов. Глобальное внимание затем вычисляется как перекрестное внимание (cross-attention) между полным набором токенов изображений и этим меньшим набором дескрипторов, что значительно снижает вычислительные затраты. Более того, компактность дескрипторов позволяет осуществлять онлайн-вывод для длинных последовательностей с помощью chunk-recursive механизма, который повторно использует кэшированные дескрипторы из предыдущих фрагментов. Экспериментальные результаты показывают, что FlashVGGT достигает точности реконструкции, сопоставимой с VGGT, при этом сокращая время вывода до 9.3% от времени VGGT для 1000 изображений и эффективно масштабируясь до последовательностей, превышающих 3000 изображений. Страница проекта доступна по адресу https://wzpscott.github.io/flashvggt_page/.

In-Context Sync-LoRA для редактирования портретного видео
In-Context Sync-LoRA for Portrait Video Editing

Dec 2

BySagi Polaczek, Or Patashnik, Ali Mahdavi-Amiri, Daniel Cohen-Or

Редактирование портретных видео — это сложная задача, требующая гибкого, но точного контроля над широким спектром модификаций, таких как изменение внешности, правка выражения лица или добавление объектов. Основная сложность заключается в сохранении исходного временного поведения субъекта, что требует точной синхронизации каждого редактируемого кадра с соответствующим исходным кадром. Мы представляем Sync-LoRA — метод редактирования портретных видео, который обеспечивает высококачественные визуальные модификации при сохранении покадровой синхронизации и консистентности идентичности. Наш подход использует диффузионную модель «изображение-в-видео», где правка задается путем модификации первого кадра, а затем распространяется на всю последовательность. Для достижения точной синхронизации мы обучаем контекстно-зависимый LoRA на парных видео, которые изображают идентичные траектории движений, но различаются по внешности. Эти пары автоматически генерируются и отбираются с помощью процесса фильтрации на основе синхронизации, который выбирает для обучения только наиболее временно согласованные примеры. Такая схема обучения учит модель комбинировать сигналы движения из исходного видео с визуальными изменениями, внесенными в отредактированный первый кадр. Обучившись на компактном, тщательно отобранном наборе синхронизированных человеческих портретов, Sync-LoRA обобщается на незнакомые идентичности и разнообразные правки (например, изменение внешности, добавление объектов или смена фона), устойчиво обрабатывая вариации позы и выражения. Наши результаты демонстрируют высокую визуальную достоверность и сильную временную согласованность, достигая надежного баланса между точностью редактирования и сохранением исходной динамики движений.

Решение олимпиадных задач по геометрии высшего уровня с эффективными эвристическими вспомогательными построениями
Gold-Medal-Level Olympiad Geometry Solving with Efficient Heuristic Auxiliary Constructions

Nov 27

ByBoyan Duan, Xiao Liang, Shuai Lu, Yaoxiang Wang, Yelong Shen, Kai-Wei Chang, Ying Nian Wu, Mao Yang, Weizhu Chen, Yeyun Gong

Автоматическое доказательство теорем в евклидовой геометрии, особенно для задач уровня Международной математической олимпиады (ММО), остается серьезной проблемой и важным направлением исследований в области искусственного интеллекта. В данной статье представлен высокоэффективный метод доказательства геометрических теорем, который полностью выполняется на центральных процессорах без использования выводов на основе нейронных сетей. Наше первоначальное исследование показывает, что простая случайная стратегия добавления вспомогательных точек позволяет достичь уровня человеческой производительности, соответствующего серебряной медали на ММО. Основываясь на этом, мы предлагаем HAGeo — эвристический метод добавления вспомогательных построений в геометрическом выводе, который решает 28 из 30 задач на тестовом наборе IMO-30, достигая уровня производительности золотой медали и значительно превосходя AlphaGeometry, конкурирующий подход на основе нейронных сетей. Для более комплексной оценки нашего метода и существующих подходов мы дополнительно создали HAGeo-409 — тестовый набор, состоящий из 409 геометрических задач с уровнями сложности, оцененными человеком. По сравнению с широко используемым IMO-30, наш тестовый набор представляет более серьезные вызовы и обеспечивает более точную оценку, устанавливая более высокую планку для автоматического доказательства геометрических теорем.

Маски могут отвлекать: о понимании контекста в диффузионных языковых моделях
Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models

Nov 26

ByJulianna Piskorz, Cristina Pinneri, Alvaro Correia, Motasem Alfarra, Risheek Garrepalli, Christos Louizos

Маскированные диффузионные языковые модели (MDLM) недавно появились как перспективная альтернатива авторегрессионным языковым моделям (ARLM), используя деноизирующий принцип, который, в теории, должен обеспечивать более равномерное использование контекста. В данной работе мы исследуем способности MDLM к пониманию контекста и выявляем два ключевых ограничения. Во-первых, несмотря на более глобальную цель обучения и двунаправленный механизм внимания, подобно ARLM, MDLM демонстрируют сильную склонность к локальности: производительность сильно зависит от положения релевантной информации во входных данных, отдавая предпочтение локальному контексту перед удаленным. Во-вторых, мы показываем, что добавление большого количества маскирующих токенов, необходимых для генерации, может значительно ухудшить понимание контекста. С помощью систематических абляций мы обнаруживаем, что эти маски действуют как отвлекающие факторы, снижая способность модели обрабатывать релевантную информацию. Для решения этой проблемы мы представляем функцию потерь, инвариантную к маскам, которая побуждает прогнозы оставаться неизменными независимо от количества добавленных масок. Дообучение с этой целью существенно смягчает отвлекающий эффект масок, повышая устойчивость MDLM. В целом, наши результаты выявляют критические ограничения текущей парадигмы обучения MDLM и предоставляют практические рекомендации для создания диффузионных языковых моделей с более сильным пониманием контекста.

Обучение, инвариантное к стилю обуви и учитывающее поверхность, для плотной оценки контакта стопы
Shoe Style-Invariant and Ground-Aware Learning for Dense Foot Contact Estimation

Nov 27

ByDaniel Sungho Jung, Kyoung Mu Lee

Контакт стопы с поверхностью играет ключевую роль во взаимодействии человека с окружающим миром, поэтому его изучение способствует углублению нашего понимания человеческого движения и физического взаимодействия. Несмотря на важность, существующие методы часто аппроксимируют контакт стопы с использованием ограничения нулевой скорости и фокусируются на контакте на уровне суставов, не учитывая детального взаимодействия между стопой и поверхностью. Плотная оценка контакта стопы крайне важна для точного моделирования этого взаимодействия, однако прогнозирование плотного контакта по одному RGB-изображению остается малоизученной областью. Существует две основные проблемы при обучении оценке плотного контакта стопы. Во-первых, обувь обладает чрезвычайно разнообразным внешним видом, что затрудняет обобщение моделей для разных стилей. Во-вторых, поверхность зачастую имеет монотонный внешний вид, что осложняет извлечение информативных признаков. Для решения этих проблем мы предлагаем framework FECO (оценка контакта стопы), который обучает плотному контакту с использованием обучения, инвариантного к стилю обуви и учитывающего свойства поверхности. Для преодоления сложностей, связанных с разнообразием внешнего вида обуви, наш подход включает adversarial-обучение на стилях обуви, которое обеспечивает инвариантность признаков к стилю обуви при оценке контакта. Для эффективного использования информации о поверхности мы вводим экстрактор признаков поверхности, который учитывает её свойства на основе пространственного контекста. В результате предложенный метод обеспечивает надежную оценку контакта стопы независимо от внешнего вида обуви и эффективно использует информацию о поверхности. Код будет опубликован.

CodeV: Программирование с изображениями для достоверного визуального анализа с помощью инструментально-ориентированной оптимизации политик
CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

Nov 24

ByXinhai Hou, Shaoyuan Xu, Manan Biyani, Mayan Li, Jia Liu, Todd C. Hollon, Bryan Wang

Агентные визуально-языковые модели все чаще обучаются «мыслить образами», вызывая операции с изображениями. Однако мы показываем, что высокая итоговая точность ответов часто скрывает недобросовестное визуальное рассуждение: модели могут применять инструменты к нерелевантным областям или полностью игнорировать их результаты, но при этом угадывать правильный ответ. В данной работе мы сначала предлагаем протокол оценки добросовестности, который измеряет, содержат ли промежуточные визуальные результаты инструментов (например, кропы) запрашиваемые доказательства. Это показывает, что современные визуальные агенты достигают высокой итоговой точности, но демонстрируют низкий уровень добросовестного использования инструментов в бенчмарках визуального поиска. Затем мы представляем CodeV — кодонового визуального агента, обученного с помощью оптимизации политики с учетом инструментов (TAPO). TAPO — это процессная RL-архитектура, которая расширяет GRPO за счет плотных вознаграждений, определенных непосредственно на входах и выходах визуальных инструментов, а не на токенах цепи рассуждений, что упрощает проверку контроля и снижает уязвимость к взлому вознаграждений. CodeV представляет визуальные инструменты в виде исполняемого кода Python, а TAPO назначает пошаговые вознаграждения исключительно на основе вопроса и вывода инструмента, поощряя как необходимое, так и согласованное с доказательствами использование инструментов. В двухэтапном конвейере SFT+RL CodeV достигает конкурентоспособной или превосходящей точности при значительном увеличении уровня добросовестного использования инструментов в связанных бенчмарках визуального поиска. Помимо визуального поиска, CodeV демонстрирует высокую производительность на ряде мультимодальных бенчмарков рассуждений и математики, что позволяет предположить, что явный контроль промежуточного поведения инструментов критически важен для построения надежных агентных систем визуального рассуждения.

BOOM: Beyond Only One Modality — многомодальный многоязычный лекционный компаньон от KIT
BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion

Dec 2

BySai Koneru, Fabian Retkowski, Christian Huber, Lukas Hilgert, Seymanur Akti, Enes Yavuz Ugan, Alexander Waibel, Jan Niehues

Глобализация образования и быстрый рост онлайн-обучения сделали локализацию образовательного контента критически важной задачей. Учебные материалы по своей природе мультимодальны, сочетая звуковую речь с визуальными слайдами, что требует систем, способных обрабатывать несколько входных модальностей. Чтобы обеспечить доступный и полноценный учебный опыт, переводы должны сохранять все модальности: текст для чтения, слайды для визуального восприятия и речь для аудирования. Мы представляем BOOM, мультимодального многоязычного помощника для лекций, который совместно переводит аудио и слайды лекций для создания синхронизированных выходных данных в трёх модальностях: переведённый текст, локализованные слайды с сохранёнными визуальными элементами и синтезированная речь. Этот сквозной подход позволяет студентам получать доступ к лекциям на родном языке, стремясь при этом сохранить оригинальный контент в полном объёме. Наши эксперименты демонстрируют, что транскрипты с учётом слайдов также приносят каскадные преимущества для последующих задач, таких как суммаризация и ответы на вопросы. Мы публикуем наш код для перевода слайдов по адресу https://github.com/saikoneru/image-translator и интегрируем его в Lecture Translator по адресу https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Весь опубликованный код и модели лицензированы по лицензии MIT.}

Понимание и использование разреженности в унифицированных мультимодальных моделях
Understanding and Harnessing Sparsity in Unified Multimodal Models

Dec 2

ByShwai He, Chaorui Deng, Ang Li, Shen Yan

Крупные мультимодальные модели достигли значительного прогресса как в понимании, так и в генерации. Современные исследования направлены на создание унифицированных мультимодальных моделей, которые интегрируют гетерогенные компоненты для поддержки обеих возможностей в единой архитектуре. Однако такая унификация приводит к неэффективности вывода: например, конкретные задачи или образцы могут не требовать полного объема знаний или мощности унифицированной модели. Тем не менее, систематическое понимание того, как эти неэффективности проявляются в различных компонентах, остается ограниченным. В данной работе мы сначала проводим систематический анализ компонентов унифицированной мультимодальной модели, используя бестренировочный прунинг в качестве метода исследования, рассматривая как прунинг по глубине, так и сокращение по ширине. Наше исследование показывает, что компонент понимания демонстрирует заметную сжимаемость как в задачах понимания, так и генерации, причем в последних это выражено более ярко. В отличие от этого, компоненты генерации высокочувствительны к сжатию: их производительность резко ухудшается даже при умеренных коэффициентах сжатия. Для преодоления этого ограничения мы предлагаем адаптацию на основе смеси экспертов (Mixture-of-Experts, MoE), вдохновленную наблюдаемыми динамическими паттернами активации для различных образцов. Этот подход разделяет модуль генерации на несколько экспертов и позволяет разреженную активацию для восстановления качества генерации. Мы подтверждаем эффективность разреженной активации с помощью тонкой настройки с замороженными экспертами и дополнительно демонстрируем, что полностью обучаемая адаптация дает дополнительные преимущества. В результате адаптированная модель BAGEL достигает производительности, сопоставимой с полной моделью, при активации лишь около половины ее параметров. Код доступен по ссылке: https://github.com/Shwai-He/SparseUnifiedModel{эта ссылка}.

Артемида: структурированное визуальное мышление для обучения перцептивной политике
Artemis: Structured Visual Reasoning for Perception Policy Learning

Dec 1

ByWei Tang, Yanpeng Sun, Shan Zhang, Xiaofan Li, Piotr Koniusz, Wei Li, Na Zhao, Zechao Li

Современные фреймворки обучения с подкреплением для политик визуального восприятия начали включать промежуточные цепочки рассуждений, выраженные на естественном языке. Эмпирические наблюдения показывают, что такие чисто лингвистические промежуточные рассуждения часто снижают производительность на задачах восприятия. Мы утверждаем, что ключевая проблема заключается не в самом рассуждении, а в его форме: в то время как эти цепочки выполняют семантические рассуждения в неструктурированном лингвистическом пространстве, визуальное восприятие требует рассуждений в пространственном и объектно-ориентированном пространстве. В ответ на это мы представляем Artemis — фреймворк обучения политик восприятия, который выполняет структурированное рассуждение на основе предложений (proposal-based reasoning), где каждый промежуточный шаг представлен в виде пары (метка, ограничивающая рамка), фиксирующей проверяемое визуальное состояние. Такой дизайн позволяет явно отслеживать промежуточные состояния, осуществлять прямое управление качеством предложений и избегать неоднозначности, привносимой языковыми рассуждениями. Artemis построен на основе Qwen2.5-VL-3B, демонстрирует высокую производительность на задачах локализации и обнаружения и показывает значительную обобщающую способность на задачи счета и геометрического восприятия. Последовательное улучшение результатов в этих разнообразных условиях подтверждает, что согласование рассуждений с пространственными представлениями улучшает обучение политик восприятия. Благодаря усиленному визуальному рассуждению Artemis также достигает конкурентоспособных результатов на общих бенчмарках MLLM, что иллюстрирует, что пространственно обоснованное рассуждение предоставляет принципиальный путь к масштабируемым и обобщающим политикам восприятия.

Click2Graph: Интерактивные панорамные видеосценарные графы по одному клику
Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click

Nov 20

ByRaphael Ruschel, Hardikkumar Prajapati, Awsafur Rahman, B. S. Manjunath

Современные системы генерации графов сцен из видео (Video Scene Graph Generation, VSGG) обеспечивают структурированное визуальное понимание, но функционируют как замкнутые прямопроходные конвейеры, не способные учитывать указания человека. В отличие от них, промптируемые модели сегментации, такие как SAM2, позволяют точно взаимодействовать с пользователем, но лишены семантического или реляционного анализа. Мы представляем Click2Graph — первую интерактивную платформу для паноптической генерации графов сцен из видео (Panoptic Video Scene Graph Generation, PVSG), которая объединяет визуальное промптирование с пространственным, временным и семантическим пониманием. На основе единственного пользовательского сигнала, такого как клик или ограничивающая рамка, Click2Graph сегментирует и отслеживает субъект во времени, автономно обнаруживает взаимодействующие объекты и предсказывает триплеты <субъект, объект, предикат> для формирования временно согласованного графа сцены. Наша платформа включает два ключевых компонента: модуль динамического обнаружения взаимодействий, который генерирует объектные промты, обусловленные субъектом, и семантический классификатор, выполняющий совместный анализ сущностей и предикатов. Эксперименты на бенчмарке OpenPVSG демонстрируют, что Click2Graph закладывает прочную основу для пользовательско-управляемой PVSG, показывая, как человеческие промты можно комбинировать с паноптическим grounding'ом и реляционным выводом для обеспечения контролируемого и интерпретируемого понимания видеосцен.