HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

39 papers found

LocateAnything: Быстрое и высококачественное визуально-языковое связывание с параллельным декодированием боксов
LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

May 26

ByShihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu

Зрительно-языковые модели (VLM) обычно формулируют визуальное привязывание и обнаружение как задачу генерации координатных токенов, сериализуя каждый 2D-бокс в несколько 1D-токенов, которые обучаются и декодируются в значительной степени независимо. Это поканальное декодирование не соответствует связанной структуре геометрии бокса и создает практическое узкое место при выводе из-за строго последовательной генерации. Мы представляем LocateAnything — унифицированный фреймворк генеративного привязывания и обнаружения, основанный на параллельном декодировании боксов (PBD). Декодируя геометрические элементы, такие как ограничивающие рамки и точки, в виде атомарных единиц за один шаг, LocateAnything сохраняет внутриблочную геометрическую согласованность и обеспечивает существенный параллелизм. Мы показываем, что PBD улучшает как пропускную способность декодирования, так и точность локализации. Мы также разрабатываем масштабируемый движок данных и создаем набор данных LocateAnything-Data, содержащий более 138 миллионов обучающих образцов, что значительно увеличивает разнообразие данных для высокоточной локализации. Обширные оценки показывают, что LocateAnything продвигает границу скорости и точности, достигая значительно более высокой пропускной способности декодирования при одновременном улучшении качества локализации с высоким IoU в различных бенчмарках. Результаты подчеркивают взаимодополняющие преимущества параллельного декодирования боксов и крупномасштабных обучающих данных для обеспечения эффективного и точного унифицированного визуального привязывания и обнаружения.

EvalVerse: Конвейерно-осведомленный и экспертно-калиброванный бенчмаркинг для профессиональной генерации кинематографического видео
EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

May 22

BySonglin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang, Zhenchen Tang, Yang Li, Bohai Gu, Zhengwei Peng, Yidan Huang, Mengzhou Luo, Yihang Bo, Dalu Feng, Yujia Zhang, Juntao Ma, Ruiqi Wang, Lvmin Zhang, Yuwei Guo, Frank Guan, Maneesh Agrawala, Hongbo Fu, Alan Zhao, Anyi Rao

Стремительная эволюция генеративных фундаментальных моделей видео вывела эту область к созданию кинематографического синтеза профессионального уровня. Для достижения такого высокого качества сообщество переходит к обучению с подкреплением (RL) и агентным рабочим процессам. Однако ключевым узким местом стала надежная оценка. Существующие бенчмарки преимущественно оценивают «правильно ли это» (базовое следование подсказке), но принципиально игнорируют «хорошо ли это» (кинематографическое качество, актерскую игру и эстетику). Кроме того, современные автоматизированные метрики лишены необходимой предметной строгости для предоставления надежных сигналов, что создает серьезный разрыв в доверии между человеческим эстетическим восприятием и машинной оценкой. Чтобы преодолеть этот разрыв, мы представляем EvalVerse — комплексную, учитывающую конвейер и откалиброванную экспертами оценочную среду. Мы рассматриваем оценку генерации видео не просто как инженерную задачу, а как фундаментальную научную проблему: систематическую оцифровку субъективного кинематографического опыта. Во-первых, мы организуем предметные знания в таксономию оценки, согласованную с профессиональным кинопроизводственным процессом (препродакшн, продакшн и постпродакшн). Во-вторых, мы сводим экспертные суждения в курируемый набор данных с крупномасштабной человеческой разметкой. В-третьих, мы внедряем эти знания в визуально-языковые модели (VLM) с помощью откалиброванной экспертами стратегии тонкой настройки, позволяя VLM выполнять явное рассуждение по цепочке мыслей (Chain-of-Thought). По сравнению с предыдущими работами, EvalVerse не только сохраняет совместимость с фундаментальными метриками «правильности», но и существенно расширяет критерии до «качества», а также охват задач до сложных многосценовых последовательностей и аудиовизуальной интеграции. Следовательно, предоставляя детальные диагностические сигналы, EvalVerse выходит за рамки статической таблицы лидеров и создает фундаментальную инфраструктуру для будущих работ, таких как модели вознаграждения и оценочные агенты.

SpatialBench: Является ли ваша пространственная фундаментальная модель универсальным игроком?
SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

May 26

ByHaosong Peng, Hao Li, Jiaqi Chen, Yuhao Pan, Runmao Yao, Yalun Dai, Fushuo Huo, Fangzhou Hong, Zhaoxi Chen, Haozhao Wang, Dingwen Zhang, Ziwei Liu, Wenchao Xu

Хотя пространственные фундаментальные модели продемонстрировали впечатляющую производительность на стандартных наборах данных, остается критический вопрос: действительно ли они являются универсальными моделями, способными надежно обобщать результаты на разнообразные нижестоящие задачи, произвольные точки обзора, меняющиеся предметные домены, варьирующуюся плотность входных данных и конкретные аппаратные ограничения? Ответ на этот всеобъемлющий вопрос требует целостной оценки, однако современные модели в основном оцениваются на тех конкретных доменах, для которых они были специально разработаны или обучены. Подобные оценки внутренне ограничены узким охватом парадигм, ограниченным набором предметных доменов и произвольной выборкой кадров, что принципиально затрудняет оценку их истинных способностей к обобщению. Для устранения этого пробела мы представляем SpatialBench — кросспарадигмальный, разнообразный по доменам бенчмарк для пространственных фундаментальных моделей с детерминированной выборкой. SpatialBench отличается беспрецедентным масштабом и строгим детерминированным дизайном, включая 19 наборов данных и 546 сцен из 5 различных пространственных доменов. Он всесторонне оценивает 41 модель из 6 парадигм по 5 наборам задач при 4 различных настройках плотности входных данных. Наш обширный анализ показывает, что современные модели пока не являются универсальными, и выявляет ключевые идеи для будущего развития. В частности, мы демонстрируем, что внимание с полным контекстом максимизирует точность, в то время как стратегии с ограниченной памятью открывают масштабируемость для длинных последовательностей. Кроме того, наши эмпирические оценки в сложных воплощённых и эгоцентричных задачах показывают, что строгое выравнивание доменов и высокое качество данных гораздо важнее для производительности, чем простое масштабирование наборов данных. Наконец, для устранения самого крупного пробела в данных, выявленного в нашем анализе, мы выходим за рамки оценки, представляя крупномасштабный набор данных DA-Next-5M и сильную базовую модель DA-Next, расширяющие границы пространственного обучения представлениям.

MobileGym: Верифицируемая и высокопараллельная симуляционная платформа для исследований мобильных GUI-агентов
MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research

May 25

ByDingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Zichen Liu, Lue Fan, Zhaoxiang Zhang

Мы представляем MobileGym — размещенный в браузере, легковесный и полностью управляемый среду для повседневного использования на мобильных устройствах, нацеленную на точность взаимодействия без повторения проприетарных внутренних компонентов. Она обеспечивает две ранее недоступные для повседневных приложений возможности: верифицируемые выходные сигналы благодаря детерминированной проверке на основе состояния по структурированному JSON-состоянию и масштабируемое онлайн-обучение с подкреплением за счет недорогих параллельных прогонов. Полное состояние среды захватывается, настраивается, разветвляется и сравнивается как структурированный JSON, а один сервер может обслуживать сотни параллельных экземпляров, затрачивая около 400 МБ памяти на экземпляр и около 3 секунд на холодный запуск. Многоуровневая модель состояния и декларативный фреймворк определения задач обеспечивают практическую программируемость состояния и создание задач в масштабе, а единый программный механизм проверки выдает как детерминированные оценочные вердикты, так и плотные награды для обучения с подкреплением. Прилагаемый бенчмарк MobileGym-Bench содержит 416 параметризованных шаблонов задач, включая 256 тестовых и 160 обучающих шаблонов, для 28 приложений, с детерминированными проверяющими модулями и структурированным протоколом AnswerSheet, исключающим ошибки сопоставления свободного текста. В исследовании случая «из симуляции в реальность» GRPO на Qwen3-VL-4B-Instruct дает прирост в +12,8 процентных пункта на тестовом наборе из 256 задач, а на подмножестве сигналов с реального устройства из 59 задач выполнение на реальном устройстве сохраняет 95,1% прироста от обучения в симуляции. Страница проекта: https://mobilegym.github.io.

Геометрически-осознанное подавление шума представления для устойчивой многовидовой 3D-реконструкции
Geometry-Aware Representation Denoising for Robust Multi-view 3D Reconstruction

May 25

ByJin Hyeon Kim, Jaeeun Lee, Claire Kim, Kyoungjin Oh, Paul Hyunbin Cho, Jaewon Min, Yeji Choi, Jihye Park, Hyunhee Park, Minkyu Park, Seungryong Kim

Многовьюная 3D-реконструкция достигла значительного прогресса с появлением прямых моделей 3D-реконструкции (feed-forward). Однако такие модели обычно обучаются и оцениваются в идеальных условиях без деградации изображений, тогда как реальные наблюдения часто содержат искажения, существенно отличающиеся от этих условий. Таким образом, повышение устойчивости многовьюной 3D-реконструкции в условиях деградации остается важной задачей. Мы представляем Geometry-Aware Representation Denoising (GARD) — новую структуру, выполняющую диффузионное восстановление многовидовых данных непосредственно в пространстве признаков прямой модели 3D-реконструкции. Данный подход использует геометрически осознанные представления признаков реконструктора для эффективного восстановления точной геометрии сцены. Кроме того, с помощью дополнительного декодера RGB-изображений уточненные представления могут также применяться для восстановления высококачественных RGB-изображений, что позволяет одновременно восстанавливать 3D-геометрию сцены и изображения высокого качества. Комплексные эксперименты на эталоне Depth Anything 3 (DA3) демонстрируют эффективность предложенной структуры GARD.

LongAV-Compass: К унифицированной оценке генерации аудиовизуального контента минутного масштаба в задачах T2AV, I2AV и V2AV
LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV

May 25

ByTengfei Liu, Yang Shi, Xuanyu Zhu, Jiafu Tang, Liu Yang, Qixun Wang, Zhuoran Zhang, Yuqi Tang, Fengxiang Wang, Yuhao Dong, Xinlong Chen, Bozhou Li, Bohan Zeng, Yue Ding, Xiaohan Zhang, Jialu Chen, Haotian Wang, Yuanxing Zhang, Pengfei Wan, Leye Wang

Аудиовизуальная генерация стремительно развивается от коротких клипов до минутного контента, в то время как существующие протоколы оценки в основном ограничены короткими форматами. Существующие бенчмарки в первую очередь сосредоточены на генерации длительностью 5–10 секунд на основе текста и редко поддерживают унифицированную оценку для модальностей на основе текста, изображения и видео. Кроме того, они дают ограниченное понимание того, как согласованность идентичности, связность повествования и аудиовизуальное соответствие ухудшаются на протяжении длительных временных горизонтов. Чтобы восполнить этот пробел, мы представляем LongAV-Compass — систематический бенчмарк для минутной аудиовизуальной генерации. LongAV-Compass содержит 284 тщательно отобранных тестовых случая, охватывающих генерацию текст-аудио-видео (T2AV), изображение-аудио-видео (I2AV) и видео-аудио-видео (V2AV), организованных по сценариям применения и сложности генерации. Бенчмарк сочетает построение на основе таксономии с единой оценочной структурой, которая интегрирует оценку с помощью MLLM с дополнительными перцептивными и мультимодальными метриками, включая DINO-v2, ArcFace, CLIP и ImageBind. Эта структура оценивает более 20 детализированных аспектов, охватывающих качество внутри сегмента, согласованность между сегментами, глобальную связность повествования, семантическое соответствие и аудиовизуальную синхронизацию. Посредством экспериментов на 11 репрезентативных моделях вместе с валидацией по соответствию человеческим оценкам LongAV-Compass предоставляет диагностическую среду для анализа ограничений текущих систем в поддержании когерентной, семантически согласованной и временно́й непрерывной минутной аудиовизуальной генерации для различных входных модальностей.

D^2-Monitor: Динамический мониторинг безопасности для диффузионных LLM на основе маршрутизации, учитывающей неопределенность
D^2-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing

May 25

ByAoxi Liu, Yupeng Chen, James Oldfield, Guanzhe Hong, Junchi Yu, Baoyuan Wu, Philip Torr, Adel Bibi

Несмотря на появление диффузионных больших языковых моделей (D-LLM) в качестве альтернативы авторегрессионным большим языковым моделям (AR-LLM), мониторинг безопасности D-LLM остается в значительной степени неизученным. В отличие от AR-LLM, D-LLM генерируют текст с помощью многошагового процесса шумоподавления, раскрывая промежуточные скрытые представления, которые могут содержать информацию, связанную с безопасностью, недоступную в стандартных одношаговых конфигурациях мониторинга. Руководствуясь пригодностью легковесных пробников для постоянного мониторинга, мы анализируем, какие сигналы на уровне траектории лучше всего указывают на то, когда такие пробники могут испытывать затруднения. Мы обнаружили, что наиболее информативным сигналом является безопасностное колебание: промежуточные скрытые состояния неоднократно попадают в малый запас от границы принятия решения пробника. Количество таких шагов колебания в траектории D-LLM эффективно предсказывает отказ пробника, предоставляя прокси сложности примера. Основываясь на этом анализе, мы предлагаем D²-Monitor — двухуровневый монитор безопасности для D-LLM. D²-Monitor использует легковесный пробник в качестве постоянно действующего монитора для совместной оценки колебания и выполнения базовой классификации. Когда уровень колебания превышает порог, активируется более выразительный, но вычислительно более затратный пробник. Этот механизм динамической маршрутизации эффективно распределяет ресурсы мониторинга во время тестирования. Оцененный на 3 наборах данных (WildguardMix, ToxicChat, OpenAI-Moderation) для 4 D-LLM, D²-Monitor достигает современных результатов с компактным числом параметров (не более 0,85 млн) и демонстрирует наилучший компромисс между результативностью и эффективностью по сравнению с 8 базовыми моделями.

Серия MiniMax-M2: Мини-активации, высвобождающие максимальный реальный интеллект
The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

May 26

ByMiniMax, Aili Chen, Aonian Li, Baichuan Zhou, Bangwei Gong, Binyang Jiang, Boji Dan, Changqing Yu, Chao Wang, Cheng Ma, Cheng Zhong, Cheng Zhu, Chengjun Xiao, Chengyi Yang, Chengyu Du, Chenyang Zhang, Chi Zhang, Chuangyi Huang, Chunhao Zhang, Chunhui Du, Chunyu Zhao, Congchao Guo, Da Chen, Deming Ding, Dianjun Sun, Dongyu Zhang, Enhui Yang, Fei Yu, Guang Zheng, Guodong Zheng, Guohong Li, Haichao Zhu, Haigang Zhou, Haimo Zhang, Han Ding, Hao Zhang, Haohai Sun, Haolin Lyu, Haonan Lu, Haoyu Wang, Huajie Shi, Huiyang Li, Jiacheng Chen, Jian Zhang, Jiaqi Zhuang, Jiaren Cai, Jiaxin Pan, Jiayao Li, Jiayuan Song, Jichuan Zhang, Jie Wang, Jihao Gu, Jin Zhu, Jingwei Dong, Jingyang Li, Jingyu Zhang, Jingze Zhuang, Jinhao Tian, Jinli Liu, Jinyi Hu, Jun Tao, Jun Zhang, Junbin Ruan, Junhao Xu, Junjie Yan, Junteng Liu, Junxian He, Kang Xu, Ke Ji, Ke Yang, Kecheng Xiao, Keyu Duan, Keyu Li, Le Han, Letian Ruan, Li Yuan, Lianfei Yu, Liheng Feng, Lijie Mo, Lin Li, Lingye Bao, Lingyu Yang, Lingyuan Zhou, Loki, Lu Chen, Lunbin Ceng, Ming Li, Ming Zhong, Mingliang Tao, Mingyuan Chi, Mujie Lin, Nan Hu, Ningxin Chen, Peiyin Zhu, Peng Gao, Pengcheng Gao, Pengfei Li, Penglin Li, Pengyu Zhao, Qibin Ren, Qidi Xu, Qihan Ren, Qile Li, Qin Wang, Quanliang Chen, Qunhong Ceng, Rong Tian, Rui Dong, Ruitao Leng, Ruize Zhang, Shanqi Liu, Shaoyu Chen, Sheng Jia, Shun Yao, Shuoran Zhao, Shuqi Yu, Sichen Li, Sicheng Pan, Songquan Zhu, Tengfei Li, Tian Xie, Tiancheng Qin, Tianrun Liang, Wei Liu, Weiqi Xu, Weitao Li, Weixiang Chen, Weiyu Cheng, Weiyu Zhang, Wenhu Chen, Wenqian Zhao, Xiancai Chen, Xiangjun Song, Xiangyuan Wang, Xiao Luo, Xiao Su, Xiaobo Li, Xiaodong Han, Xiaojie Wu, Xihao Song, Xingyi Han, Xinyu Guan, Xuan Lu, Xun Zou, Xunhao Lai, Xutong Li, Yan Gong, Yang Wang, Yang Xu, Yangsen Wang, Ye Tang, Yicheng Chen, Yinran Qiu, Yiqi Shi, Yiting Guo, Yiwen Huang, Yixuan Wang, Yongyi Hu, Yu Gao, Yu Zhang, Yuanxiang Ying, Yuanzhen Zhang, Yubo Wang, Yuchen Song, Yufeng Yang, Yuhang Meng, Yuhang Miao, Yuhao Li, Yujie Liu, Yulin Hu, Yunan Huang, Yunji Li, Yunyi Huang, Yusen Zhang, Yusu Hong, Yutao Xie, Yutong Zhang, Yuwen Liao, Yuxuan Shi, Yuze Wenren, Zebin Li, Zehan Li, Zejian Luo, Zeyu Jin, Zeyuan Sun, Zhanpeng Zhou, Zhaochen Su, Zhendong Li, Zhengmao Zhu, Zhengyuan Peng, Zhenhua Fan, Zhi Zhang, Zhichao Xu, Zhiheng Lv, Zhikang Xu, Zhitao He, Zhiwei He, Zhongyuan Li, Zibo Gao, Zijia Wu, Zijian Song, Zijian Zhou, Zijun Sun, Zishan Huang, Ziying Chen, Ziyue Ge

Мы представляем серию MiniMax-M2 — семейство языковых моделей на основе смеси экспертов (MoE), построенное на принципе, что мини-активации могут высвободить максимум реального интеллекта. Флагманская модель M2 содержит 229,9 млрд. параметров, из которых активируется лишь 9,8 млрд. на токен. Спроектированная как сквозное решение для агентного развертывания, серия M2 основывается на трех компонентах: (i) агентно-управляемые конвейеры данных, генерирующие крупномасштабные, верифицируемые траектории в областях агентного программирования и агентной совместной работы, каждая из которых основана на исполняемом рабочем пространстве и вознаграждении, согласованном с артефактами; (ii) Forge — масштабируемая агентно-ориентированная система обучения с подкреплением (RL), адаптирующаяся к долгосрочным агентным траекториям, в сочетании с оконным планированием FIFO, слиянием префиксных деревьев, оптимизацией инференса и четким разделением обучения, инференса и агента, поддерживающим как полностью прозрачные (white-box), так и непрозрачные (black-box) агенты; (iii) последняя контрольная точка M2.7 делает первый шаг к самоэволюции — автономно отлаживает циклы обучения и модифицирует собственный каркас. На всем диапазоне от M2 до M2.7 данное сочетание превращает малую активационную площадь в производительность передового уровня на бенчмарках агентного программирования, глубокого поиска, офисных задач и рассуждений.

Soap2Soap: длительное кинематографическое пересоздание видео с помощью многоагентного сотрудничества
Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration

May 17

ByYiren Song, Huilin Zhong, Kevin Qinghong Lin, Haofan Wang, Mike Zheng Shou

Мы изучаем киноремейкинг на уровне сериалов — задачу генерации видео-в-видео на длительных горизонтах, которая локализует целые эпизоды или фильмы с помощью стилизации или замены актера, строго сохраняя повествовательную структуру, хореографию движений и идентичность персонажей на протяжении сотен кадров. Существующие пайплайны генерации и редактирования видео часто дают сбой в этом режиме из-за усугубляющегося дрейфа идентичности, мутации фона и семантической эрозии при больших движениях камеры и изменениях ракурса. Мы предлагаем Soap2Soap — мультиагентную структуру, которая обеспечивает долгосрочную языково-визуальную согласованность с помощью механизма двойной мостовой согласованности (Dual-Bridge Consistency): осведомленного о сцене JSON-сценария, служащего постоянной семантической основой, и динамически выделяемых визуальных референсных якорей на уровне сцены и кадра. Для подавления дрейфа перед синтезом видео мы вводим пакетную согласованность ключевых кадров, совместно генерируя несколько ключевых кадров в общем латентном контексте с помощью сеточной формулировки. Агент замкнутой верификации дополнительно проверяет идентичность, стабильность и соответствие, чтобы инициировать выборочную регенерацию. Эксперименты на SoapBench демонстрируют значительные улучшения по сравнению с коммерческими API генерации видео в долгосрочной согласованности и верности повествованию.

Больше обмена, меньше поиска: совместное параллельное мышление для эффективного масштабирования во время тестирования
Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling

May 26

ByXinglin Wang, Hao Lin, Shaoxiong Feng, Peiwen Yuan, Yiwei Li, Jiayi Shi, Yueqi Zhang, Chuyi Tan, Ji Zhang, Boyuan Pan, Yao Hu, Kan Li

Масштабирование во время тестирования (Test-Time Scaling, TTS) расширяет возможности рассуждения больших языковых моделей, выделяя дополнительные вычислительные ресурсы для вывода с целью исследования пространства решений. Однако существующие параллельные методы TTS обычно сохраняют изоляцию ветвей в процессе поиска: промежуточные открытия остаются частными для каждой ветви и не могут своевременно направлять другие ветви. Такая информационная изоляция приводит к значительному избыточному исследованию, поскольку ветви многократно заново обнаруживают информацию, уже найденную в других местах, и требуют большего количества шагов поиска для сбора полной информации, необходимой для принятия правильных решений. Для устранения этого пробела мы предлагаем Совместное параллельное мышление (Collaborative Parallel Thinking, CPT) — безучебную структуру вывода, обеспечивающую обмен информацией между параллельными ветвями во время поиска. CPT извлекает компактную промежуточную информацию из текущих ветвей, поддерживает дедуплицированный пул информации на уровне запроса и транслирует записи пула через входной контекст, позволяя каждой ветви на последующих шагах поиска повторно использовать открытия, сделанные другими ветвями, вместо того чтобы заново открывать ту же информацию. Эмпирически эксперименты на тестах HMMT и AIME показывают, что CPT устанавливает более сильную границу Парето по точности и задержке, чем сильные базовые модели, при различных бюджетах развертывания и масштабах моделей, подчеркивая сотрудничество во время поиска как эффективное направление для эффективного параллельного TTS.

LLaVA-OneVision-2: К перцептивному интеллекту следующего поколения
LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence

May 25

ByXiang An, Yin Xie, Feilong Tang, Yunyao Yan, Huajie Tan, Didi Zhu, Changrui Chen, Xiuwei Zhao, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Kaichen Zhang, Wenkang Zhang, Zheng Cheng, Nansen Zhang, Chunsheng Wu, Chunjiang Ge, Zimin Ran, Dehua Song, Chunyuan Li, Shikun Feng, Ming Hu, Zhangquan Chen, Junbo Niu, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

Мы представляем LLaVA-OneVision-2 (LLaVA-OV-2) — самую мощную модель «видение-язык» в серии LLaVA-OneVision на сегодняшний день, которая демонстрирует превосходную производительность в широком спектре мультимодальных бенчмарков. Модель основана на родном кодировщике OneVision-Encoder и включает оконное внимание (Windowed Attention) для эффективных локальных вычислений при сохранении нативного разрешения. Ключевым нововведением является токенизация кодек-потока (codec-stream tokenization): сжатое видео рассматривается как непрерывный поток с битовой стоимостью, где динамика битовой стоимости определяет адаптивные временные группы, а сигналы остатка движения (motion-residual cues) отбирают значимые пространственные свидетельства в компактные визуальные холсты. Такое распределение концентрирует ограниченный бюджет токенов на содержащем события контенте, обеспечивая более стабильную компрессию токенов в длинных видео по сравнению с фиксированными группами кадров. Общая 3D RoPE дополнительно помещает кодек-холсты, выборочные кадры и изображения в единую пространственно-временную систему координат. Кроме того, мы построили основу данных и обучения LLaVA-OV-2 вокруг крупномасштабного открытого супервизирования: около 8 млн переподписанных видеосэмплов для предобучения и пространственный корпус из 4 млн сэмплов для тонкой настройки. Мы также представляем JumpScore — эталон временной локализации, нацеленный на тонкую привязку в высокочастотных, плотно повторяющихся движениях — режиме, недостаточно представленном в существующих видео-оценках. Выдающаяся способность LLaVA-OV-2 заключается в едином восприятии, охватывающем понимание видео, временную привязку, пространственную привязку и логический вывод по следам манипуляций. На JumpScore модель LLaVA-OneVision-2-8B достигает 74,9 mAP, превосходя Qwen3-VL-8B (30,1) на 44,8 балла; при сопоставимых бюджетах визуальных токенов на том же эталоне входные данные кодек-потока улучшают временную привязку по сравнению с семплированием кадров на 9,7 балла. В стандартных бенчмарках LLaVA-OneVision-2-8B также превосходит Qwen3-VL-8B в среднем на 4,3 балла в видео-задачах, на 5,3 — в пространственных задачах и на 15,6 в среднем J&F в задачах отслеживания.

Ничтожные по размеру, значительные по эффекту: о векторах масштаба в больших языковых моделях
Negligible in Size, Significant in Effect: On Scale Vectors in Large Language Models

May 26

ByMingze Wang, Shuchen Zhu, Yuxin Fang, Binghui Li, Kai Shen, Shu Zhong

Нормализационные слои в современных больших языковых моделях (LLM) состоят из детерминированной операции нормализации и обучаемого вектора масштаба. В то время как операция нормализации была широко изучена, вектор масштаба остается плохо понятым, несмотря на его повсеместное использование. В данной работе мы представляем систематическое исследование векторов масштаба в LLM с точки зрения выразительности, оптимизации и архитектурной структуры. Во-первых, мы эмпирически показываем, что хотя векторы масштаба составляют лишь ничтожную долю параметров модели, их удаление существенно ухудшает предварительное обучение LLM. Наша теория также показывает, что в архитектурах Pre-Norm векторы масштаба не увеличивают выразительность; вместо этого они улучшают оптимизацию за счет самоусиливающегося эффекта предобусловливания для последующих линейных отображений. Во-вторых, мы исследуем роль затухания весов для векторов масштаба. Различая слои Input-Norm и Output-Norm, мы теоретически показываем, что затухание весов полезно для первых, но вредно для вторых, из-за их различных ролей в оптимизации и выразительности. В-третьих, руководствуясь этим пониманием, мы предлагаем три легковесных и взаимодополняющих улучшения для векторов масштаба: гетерогенность, специфичную для ветвей, улучшенное размещение вокруг линейных отображений и репараметризацию величины и направления. Как теория, так и эксперименты показывают, что каждое улучшение дает стабильный прирост. Наконец, мы объединяем эти улучшения в единую стратегию векторов масштаба и оцениваем ее с помощью обширных экспериментов по предварительному обучению LLM на плотных моделях и моделях смеси экспертов с числом параметров от 0,12B до 2B, используя несколько оптимизаторов и графиков скорости обучения, в рамках бюджетов токенов промышленного масштаба. Единая стратегия последовательно достигает более низких конечных потерь, чем хорошо настроенные базовые модели, и демонстрирует более благоприятное поведение при масштабировании, добавляя при этом незначительные накладные расходы по параметрам и вычислениям.

Переосмысление представления VLM для инициализации VLA
Rethinking VLM Representation for VLA Initialization

May 25

ByWeifeng Lin, Siyuan Huang, Hao Li, Tingwei Chen, Ruichuan An, Xinyu Wei, Jianbo Liu, Hongsheng Li

Модели «видение-язык-действие» (VLA) широко используют предобученные модели «видение-язык» (VLM) в качестве магистральной политики, однако до сих пор остаётся неясным, какое представление предобученной VLM является полезным для инициализации VLA. В данной работе мы исследуем инициализацию VLA как задачу контролируемого проектирования представлений по трём осям: контроль на основе воплощённого VQA на уровне способностей, стратегия обновления параметров и предобучение на данных роботов. Наши эксперименты показывают, что исходное представление предобученной VLM является ключевым источником эффективности действий. Однако адаптация к воплощённому VQA не даёт равномерного прироста: её преимущество зависит от узких мест на этапе downstream, а приросты от разных областей способностей не являются просто аддитивными. Что касается стратегии обновления, LoRA обеспечивает более надёжную инициализацию, чем полная донастройка, что указывает на то, что чрезмерное изменение предобученного представления может ослабить инициализацию VLA. Предобучение на данных роботов дополнительно улучшает инициализацию VLA, причём наиболее сильный вариант достигается поэтапным обучением на основе LoRA. В совокупности эти результаты позволяют предположить, что эффективная адаптация VLM→VLA должна вносить сигналы, связанные с действиями, от воплощённого взаимодействия и роботизированных траекторий, сохраняя при этом предобученное представление VLM, которое остаётся полезным для обучения действиям.

JLT: Чисто-латентное предсказание в латентных диффузионных трансформерах
JLT: Clean-Latent Prediction in Latent Diffusion Transformers

May 26

ByFuning Fu, Tenghui Wang, Junyong Cen, Qichao Zhu, Guanyu Zhou

Согласование потоков с прогнозированием чистых данных показало, что регрессия на чистую точку может более эффективно использовать низкоразмерную структуру, чем предсказание зашумленной величины в исходном пространстве. Мы задаемся вопросом, остается ли этот принцип полезным после отображения изображений в обученное латентное пространство, где сжатие уже устранило значительную часть вариативности сырых пикселей. Мы представляем JLT — латентный диффузионный Трансформер на 130M параметров поверх замороженных кодов FLUX.2 VAE — и сравниваем предсказание чистого латентного представления с согласованным DiT, предсказывающим скорость, при одинаковых представлении, архитектуре и условиях обучения. Хотя три переменные x, epsilon и v линейно преобразуемы для фиксированного времени зашумления, локальный гауссов анализ показывает, что регрессия скорости наследует изотропный нижний предел ковариации цели и усиливает латентные направления с низкой дисперсией, тогда как чистое предсказание их подавляет. На ImageNet 256×256 JLT-B/1 достигает FID-50K 2.50 с бесклассовым управлением, демонстрируя значительный разрыв в пользу согласованной цели по сравнению с предсказанием скорости. Эти результаты позволяют предположить, что цели прогнозирования в латентной диффузии являются зависящими от представления геометрическими выборами, а не взаимозаменяемыми алгебраическими параметризациями.

Эффективное агентное обучение с подкреплением с усилением границ внутреннего знания на основе текущей политики
Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement

May 26

ByDingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang

Агентное обучение с подкреплением (RL) доказало свою эффективность для обучения агентов на основе больших языковых моделей (LLM) навыкам использования внешних инструментов. Однако мы выявили, что обучение агентному RL приводит к увеличению избыточных вызовов инструментов и размывает внутреннюю границу знаний модели: модель перестает различать случаи, когда инструменты действительно необходимы, и ситуации, в которых достаточно параметрических знаний. Существующие решения, основанные на формировании вознаграждения (reward shaping), создают огрубленные цели оптимизации, которые, как правило, стимулируют неизбирательное подавление вызовов инструментов, что ведет к манипуляции вознаграждением (reward hacking). В данной работе мы предлагаем AKBE (Agentic Knowledge Boundary Enhancement — улучшение агентной границы знаний) — метод on-policy, который динамически определяет внутреннюю границу знаний модели с помощью двухпутевых прогонов (с инструментом и без инструмента) в процессе обучения. Мы определяем границу знаний как поинстансное решение о том, требуется ли использование инструментов, и о минимальном количестве необходимых вызовов инструментов. Сравнивая правильность по двум путям, AKBE классифицирует траектории и формирует целевые контролирующие сигналы, направляющие эффективные паттерны использования инструментов для каждого вопроса. Эти сигналы бесшовно интегрируются в цикл обучения агентному RL. Эксперименты на семи бенчмарках вопросно-ответных задач показывают, что AKBE повышает точность выполнения задач в среднем на +1,85 и сокращает количество вызовов инструментов на 18% по сравнению со стандартным агентным RL, что дает на 25% более высокую продуктивность инструментов без какого-либо компромисса между точностью и эффективностью. Дополнительный анализ подтверждает совместимость метода по принципу «включи и работай» с различными алгоритмами RL, а также механизм работы каждой категории сигналов. Наш код доступен по адресу https://github.com/CuSO4-Chen/AKBE.

MUSE-Autoskill: саморазвивающиеся агенты посредством создания навыков, памяти, управления и оценки
MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

May 26

ByHuawei Lin, Peng Li, Jie Song, Fuxin Jiang, Tieying Zhang

Агенты на основе больших языковых моделей (LLM) полагаются на переиспользуемые навыки для решения сложных задач. Однако существующие подходы к созданию навыков рассматривают их как изолированные и статические артефакты, что ограничивает их переиспользуемость, надежность и долгосрочное улучшение. Мы предлагаем MUSE-Autoskill Agent (агент с эволюцией навыков, использующий память) — ориентированную на навыки агентную структуру, которая позволяет агентам непрерывно улучшать свою способность решать задачи путем создания, повторного использования и уточнения навыков в рамках единого жизненного цикла (создание, память, управление, оценка и уточнение). Наша структура позволяет агентам создавать навыки по требованию, сохранять и переиспользовать их в различных задачах, эффективно организовывать и выбирать их, а также оценивать их с помощью модульных тестов и обратной связи во время выполнения для непрерывного уточнения. Мы дополнительно вводим память на уровне навыков, которая накапливает опыт для каждого навыка в разных задачах, что обеспечивает более эффективное переиспользование и адаптацию с течением времени. Эксперименты на SkillsBench дают первоначальные доказательства того, что навыки, управляемые в рамках жизненного цикла, могут улучшить успешность, эффективность, переиспользование и меж-агентный перенос задач, подчеркивая важность рассмотрения навыков как долгоживущих, обогащенных опытом и тестируемых активов.

QUACK: Вопрошание, Понимание и Аудит Сообщаемого Знания в Мультимодальных Агентах Социальной Дедукции
QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents

May 26

ByYe Yuan, Rui Song, Weien Li, Zeyu Li, Haochen Liu, Xiangyu Kong, Changjiang Han, Yonghan Yang, Zichen Zhao, Zixuan Dong, Fuyuan Lyu, Bowei He, Haolun Wu, Jikun Kang, Xue Liu

Социально-дедуктивные игры стали популярной экспериментальной площадкой для исследования рассуждений, обмана, координации и моделирования убеждений в агентах на основе больших языковых моделей (LLM). Однако большинство сред оцениваются только по игровым исходам, таким как процент побед, и в основном ограничиваются текстовым взаимодействием, что затрудняет определение того, действительно ли язык агента основан на том, что он воспринял и сделал, или выявление сценариев сбоев, лежащих в основе его поведения. Для устранения этого пробела мы представляем QUACK — среду с открытым исходным кодом и платформу оценки для аудита обоснованности языковых высказываний агентов в мультимодальном социальном рассуждении. QUACK оценивает агентов на трех уровнях: игровые исходы, поведенческие траектории и согласованность на уровне высказываний. Его основная цепочка верификации утверждений реконструирует истинную траекторию каждого агента из журналов движка и проверяет каждое утверждение в обсуждении на соответствие ей, автоматически выявляя пространственные галлюцинации, необоснованные обвинения, коллапс обмана и несоответствие между языком и действиями. Оценивая три передовые VLM как в однородных, так и в кросомодельных состязательных сценариях, мы обнаружили, что даже сильнейший агент галлюцинирует 15,1% своих проверяемых пространственных утверждений и выдвигает более половины своих обвинений без обоснованных доказательств. Полный движок, платформа оценки, инструментарий и журналы доступны по адресу https://github.com/AAAAA-Academia-Attractions/QUACK.

Значит ли видеть больше — знать больше? Моно-якорная нормализация преимущества для многоисточникового визуального рассуждения
Does Seeing More Mean Knowing More? Mono-Anchored Advantage Normalization for Multi-Source Visual Reasoning

May 25

ByFanhu Zeng, Zhicong Luo, Zefan Wang, You Li, Chi Chen, Maosong Sun

Визуальное рассуждение с помощью обучения с подкреплением на основе проверяемых наград (RLVR) достигло значительных успехов. Однако при работе с мульти-источными данными существующие подходы, как правило, рассматривают их как простое накопление информации, не имея явных механизмов для различения того, приносит ли добавление дополнительных источников прирост информации или вносит помехи. В результате им сложно эффективно моделировать динамическое взаимодействие при интеграции нескольких источников, особенно когда они существенно различаются по физическим свойствам и семантике, например, инфракрасный и глубинный каналы, что приводит к худшей производительности по сравнению с одно-источным рассуждением, когда доминирующий сигнал содержится в определённом источнике. Для решения этой проблемы мы предлагаем MARS — новую одно-якорную платформу для рассуждения с несколькими источниками, которая моделирует каждую визуальную модальность как независимый источник информации. В частности, рассматривая одно-источные награды как динамические якоря, наш метод явно включает прирост информации, полученный от слияния нескольких источников, в нормализацию преимущества и адаптивно подчёркивает взаимное усиление источников, одновременно подавляя потенциальный шум или конфликты в процессе RLVR. Теоретический анализ показывает, что наш метод эффективно количественно оценивает прирост информации, вносимый интеграцией нескольких источников в оценку градиента, что обеспечивает согласованную регуляцию модальностей. Эмпирические результаты также демонстрируют впечатляющий прирост производительности на 3,2% и 4,9% для методов GRPO и DAPO на различных наборах данных, подтверждая эффективность нашего подхода.

VitaBench 2.0: Оценка персонализированных и проактивных агентов в долгосрочных взаимодействиях с пользователем
VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions

May 26

ByYuxin Chen, Yi Zhang, Zhengzhou Cai, Yaorui Shi, Zhiyuan Yao, Chenhang Cui, Jingnan Zheng, Yaqi Huo, Xi Su, Qi Gu, Xunliang Cai, Xiang Wang, An Zhang, Tat-Seng Chua

Большие языковые модели (LLM) эволюционировали в интерактивных агентов, которые сотрудничают с пользователями в реальных задачах. Эффективное сотрудничество в таких условиях всё больше зависит от понимания пользователя за пределами явно выраженного, поскольку намерения пользователя часто отражаются в разрозненных повседневных взаимодействиях и требуют как персонализированного моделирования, так и проактивного взаимодействия. Однако существующие бенчмарки агентов в первую очередь оценивают рассуждение и использование инструментов, в значительной степени игнорируя задачи вывода и использования предпочтений пользователей в реалистичных сценариях. Чтобы восполнить этот пробел, мы представляем VitaBench 2.0 — бенчмарк для оценки персонализированного и проактивного поведения агентов в долгосрочных взаимодействиях с пользователями. В VitaBench 2.0 задачи организованы как упорядоченные во времени последовательности для отдельных пользователей, где предпочтения встроены в разрозненные и гетерогенные взаимодействия. Успешное выполнение задач требует от агента непрерывного извлечения, использования и обновления предпочтений пользователей из этих взаимодействий. Мы также оцениваем проактивность с помощью задач, требующих от агентов распознавать недостающую информацию и активно получать её от пользователей или из окружающей среды перед принятием решений. Для поддержки систематического анализа мы предоставляем расширяемый интерфейс памяти, который позволяет проводить контролируемое сравнение различных архитектур памяти. Мы проводим бенчмаркинг разнообразного набора передовых проприетарных и открытых LLM. Результаты показывают, что персонализация в реальных условиях остаётся крайне сложной задачей даже для самых современных моделей, выявляя значительный разрыв между текущими возможностями и практическими требованиями. Дальнейший обширный анализ выявляет режимы сбоев и узкие места в возможностях современных агентов в процессе принятия персонализированных решений в реальных условиях, что даёт представление для будущих улучшений моделей.

Уверенность и калибровка оракулов активации для надежной интерпретации внутреннего устройства языковых моделей
Confidence and Calibration of Activation Oracles for Reliable Interpretation of Language Model Internals

May 25

ByFederico Torrielli, Peter Schneider-Kamp, Lukas Galke Poech

Активационные оракулы направлены на то, чтобы сделать активации других моделей понятными для человека, и демонстрируют многообещающие результаты по сравнению с методами интерпретируемости «белого ящика». Однако оценка неопределенности (UQ) для выходных данных на естественном языке таких активационных оракулов до сих пор мало изучена. В данной работе мы исследуем 6 различных методов оценки уверенности активационных оракулов и оцениваем, насколько хорошо откалиброваны их показатели уверенности. Наши эксперименты на 6 000 образцов для каждого оракула (с варьированием вербализатора и контекстных подсказок) показывают, что частота бутстрап-моды является наилучшим откалиброванным методом среди протестированных (ECE 5,7% против 25,5% для лог-вероятности слова-ответа на Qwen3-8B; 10,3% против 13,1% на Qwen3.6-27B), и что базовый уровень лог-вероятности может служить быстрым сигналом сортировки при доле затрат. Код и модифицированный тренер доступны по адресу https://github.com/federicotorrielli/probabilistic_activation_oracles.

Помимо финальных ответов: аудит галлюцинаций на уровне траекторий в многоагентных промышленных рабочих процессах
Beyond Final Answers: Auditing Trajectory-Level Hallucinations in Multi-Agent Industrial Workflows

May 26

ByHarshada Badave, Santosh Borse, Andrea Gomez, Harshitha Narahari, Sara Carter, Vishwa Bhatt, Aishani Rachakonda, Shuxin Lin, Dhaval Patel

Большие языковые модели (LLM) все чаще развертываются в качестве автономных агентов, которые рассуждают, используют инструменты и действуют на протяжении нескольких шагов. Однако большинство эталонов для оценки галлюцинаций по-прежнему анализируют только конечный вывод, упуская сбои, берущие начало на промежуточных шагах «Мысль-Действие-Наблюдение». Мы представляем Trajel — набор данных и оценочную структуру для аудита галлюцинаций на уровне траекторий в многоагентных промышленных рабочих процессах. Trajel вводит таксономию галлюцинаций из пяти типов (фактологическая, референциальная, логическая, процедурная и основанная на области действия), построенную на размеченных экспертами трассах агентов из AssetOpsBench. Мы проводим эталонное тестирование моделей контролируемого обнаружения на уровнях подзадач, траекторий и длинного контекста. Наши результаты показывают, что наиболее распространенные режимы отказов упускаются существующими эталонами, что почти половина галлюцинирующих траекторий включает сразу несколько типов, и что автоматические детекторы с высокой бинарной точностью по-прежнему неправильно классифицируют самые тонкие типы. Обнаружение с учетом траектории значительно превосходит стандартную пост-хок верификацию, что делает необходимой оценку на основе таксономии для более безопасного агентного развертывания.

DarkForest: Меньше разговоров, выше точность для многоагентных LLM
DarkForest: Less Talk, Higher Accuracy for Multi-Agent LLMs

May 24

ByYi Li, Songtao Wei, Dongming Jiang, Zhichun Guo, Qiannan Li, Bingzhe Li

Мультиагентные системы на основе больших языковых моделей (LLM) улучшают рассуждения за счет объединения выходных данных нескольких агентов, однако методы с интенсивным взаимодействием могут приводить к распространению ошибок и высоким накладным расходам на коммуникацию. Когда агенты обмениваются необработанными ответами или трассами рассуждений, неверные промежуточные умозаключения могут быть приняты и усилены, что приводит к уверенному, но ошибочному консенсусу; многораундовая коммуникация также увеличивает потребление токенов, задержку и стоимость инференса. В данной статье мы предлагаем фреймворк координации с контролируемой коммуникацией под названием DarkForest. DarkForest сначала сохраняет независимость агентов, так что каждый агент формирует ответ, не видя результатов других. Затем он разбирает необработанные ответы в структурированные записи кандидатов, группирует семантически эквивалентные кандидаты в кластеры и оценивает калиброванное распределение убеждений по этим кластерам, используя надежность агентов, уверенность, качество разбора, надежность паттернов поддержки и коррекции независимости. Координатор получает только разрешенные политикой свидетельства из этого состояния убеждений с контролируемой коммуникацией. Эксперименты на шести бенчмарках рассуждений показывают, что DarkForest достигает ведущего общего качества, улучшает сильнейший базовый метод до 30,7% по метрикам бенчмарка и сокращает потребление токенов до 6,5 раз по сравнению с базовыми методами с интенсивной коммуникацией.

MobileMoE: Масштабирование смеси экспертов на устройстве
MobileMoE: Scaling On-Device Mixture of Experts

May 26

ByYanbei Chen, Hanxian Huang, Ernie Chang, Jacob Szwejbka, Digant Desai, Zechun Liu, Vikas Chandra, Raghuraman Krishnamoorthi

Смесь экспертов (MoE) стала фактической архитектурой для языковых моделей с сотнями миллиардов параметров, однако её преимущества для масштабов менее миллиарда параметров при развёртывании на устройствах остаются в значительной степени неизученными. Для устранения этого пробела мы представляем MobileMoE — семейство MoE-языковых моделей для мобильных устройств с активными параметрами менее миллиарда (0,3–0,9 млрд активных и 1,3–5,3 млрд общих), устанавливающее новую границу Парето для LLM на устройствах. Сначала мы формулируем закон масштабирования MoE для мобильных устройств, который совместно оптимизирует архитектуру MoE с учётом ограничений памяти и вычислений на мобильных устройствах, выявляя оптимальную точку — умеренную разреженность с мелкозернистыми и общими экспертами, одновременно оптимальную по памяти и вычислениям. На основе полученных архитектур мы обучаем MobileMoE с четырёхэтапным рецептом, охватывающим предварительное обучение, промежуточное обучение, дообучение по инструкциям и обучение с учётом квантования, причём все этапы выполняются на наборах данных с открытым исходным кодом. На 14 тестовых наборах MobileMoE сравнивается или превосходит ведущие плотные LLM для мобильных устройств при 2–4-кратном сокращении FLOPs при инференсе, а также сравнивается или превосходит современную MoE-модель OLMoE-1B-7B при сокращении числа параметров до 60 %. Для завершающего этапа внедрения на мобильные устройства мы предоставляем первый эффективный инференс MoE на серийных смартфонах с всесторонним профилированием на устройстве. При сопоставимом объёме весов в формате INT4 MobileMoE-S демонстрирует ускорение префилла в 1,8–3,8 раза и декодирования в 2,2–3,4 раза по сравнению с плотным базовым решением MobileLLM-Pro.

Извлечение потенциала мультимодальных больших языковых моделей для субъектно-ориентированной генерации
Squeezing Capacity from Multimodal Large Language Models for Subject-driven Generation

May 25

ByShuhong Zheng, Aashish Kumar Misraa, Yu-Teng Li, Yu-Jhe Li, Igor Gilitschenski

Генерация изображений, управляемая заданным субъектом, направлена на синтез новых изображений, сохраняющих идентичность указанного субъекта при выполнении текстовых инструкций. Существующие подходы часто кодируют текст и эталонные изображения раздельно, что ограничивает способности к кросс-модальному рассуждению и приводит к артефактам копирования-вставки. Недавние фреймворки, связывающие мультимодальные модели и диффузионные модели, улучшают следование инструкциям, но в значительной степени игнорируют сохранение идентичности. Для преодоления этих ограничений мы обуславливаем диффузионные модели мультимодальными большими языковыми моделями (MLLM), которые совместно кодируют текст и эталонные изображения, и дополняем их VAE-основанным обусловливанием идентичности. Разработан новый модуль двухуровневой агрегации (DLA) для агрегации многоуровневых признаков MLLM с целью оптимального обусловливания, а также применяется многоэтапная стратегия шумоподавления для постепенного балансирования семантической информации от MLLM и тонкодетальной идентичности от VAE в процессе инференса. Обширные эксперименты демонстрируют, что наш подход гармонизирует мультимодальное понимание с сохранением идентичности, смягчает проблемы копирования-вставки и достигает превосходных результатов с точки зрения человеческих предпочтений в генерации изображений, управляемой заданным субъектом. Наш веб-сайт проекта доступен по адресу https://zsh2000.github.io/squeeze-mllm-subject-gen/.

Gemini Embedding 2: нативная мультимодальная модель эмбеддингов от Gemini
Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini

May 26

ByMadhuri Shanbhogue, Zhe Li, Shanfeng Zhang, Gustavo Hernández Ábrego, Shih-Cheng Huang, Aashi Jain, Daniel Salz, Sonam Goenka, Chaitra Hegde, Ji Ma, Feiyang Chen, Jiaxing Wu, Tanmaya Dabral, Babak Samari, Kevin Poulet, Daniel Cer, Kaifeng Chen, Paul Suganathan, Hui Hui, Jovan Andonov, Philippe Schlattner, Jay Han, Iftekhar Naim, Wing Lowe, Vladimir Pchelin, Albert Yang, Yi-Ting Chen, Zhongli Ding, Grace Zhang, Georg Heigold, Yichang Chen, Antoine Reveillon, Brendan Mccloskey, Wenlei Zhou, Dahun Kim, Rui Meng, Emma Wang, Jack Zheng, Halley Fede, Zhen Yang, Keegan Mosley, Brian Potetz, Sahil Dua, Henrique Schechter Vera, Shen Gao, Hesen Zhang, Andreas Hess, Hengxuan Ying, Alberto Montes, Karan Gill, Min Choi, Sebastian Russo, Anja Hauth, Jinhyuk Lee, Michael Boratko, Megan Barnes, Vikram Rao, Claudiu Musat, Cyril Allauzen, Ehsan Variani, Shankar Kumar, Tom Bagby, Junyi Jiao, Yang Gu, Tengxin Li, Ayush Agrawal, Roberto Santana, Dev Nath, Stephen Karukas, Shuoxuan Han, Lucia Loher, Alice Twu, Nidhi Vyas, Siddharth Bhai, Frank Palma Gomez, Wangyuan Zhang, Chaoren Liu, Jizheng Yang, Steve Qiu, Shijie Zhang, Sujay Kulkarni, Sascha Rothe, Sean Nakamoto, Raphael Hoffmann, Zach Gleicher, Yunhsuan Sung, Qin Yin, Tom Duerig, Mojtaba Seyedhosseini

Мы представляем Gemini Embedding 2 — нативную мультимодальную модель встраивания, которая позволяет объединять видео-, аудио-, изображенческие и текстовые модальности в едином пространстве представлений. Используя мультимодальные возможности Gemini, мы получаем встраивания для произвольных комбинаций перемежающихся входных данных по всем этим модальностям, которые хорошо обобщаются на широкий круг задач. Применяя контрастивное обучение в большом масштабе в рамках многоступенчатой тренировочной схемы с несколькими задачами, мы достигаем передовых результатов на ключевых эталонах встраивания, включая одномодальный, межмодальный и мультимодальный поиск, охватывающие разнообразные задачи. Мы показываем, что наша модель встраивания демонстрирует высокую производительность (с результатом 62,9 R@1 на MSCOCO, 68,8 NDCG@10 на Vatex, 69,9 на MTEB multilingual и 84,0 на MTEB Code) по широкому спектру задач, превосходя производительность специализированных моделей. Эти унифицированные возможности делают Gemini Embedding 2 перспективным кандидатом для downstream-применений, таких как RAG, рекомендации и поиск. Кроме того, его устойчивая производительность в режиме нулевого обучения в различных областях — от астрономии и биологических наук до изобразительного и кулинарного искусства — делает его высоконадежным представлением, готовым к использованию даже в специализированных доменах.

Обучение действиям в условиях шума: повышение устойчивости агента посредством зашумленных сред
Learning to Act under Noise: Enhancing Agent Robustness via Noisy Environments

May 26

ByYuxin Chen, Xiaodong Cai, Junfeng Fang, Zhuowen Han, Yu Wang, Yaorui Shi, Yi Zhang, Qi Gu, Xunliang Cai, Xiang Wang, An Zhang, Tat-Seng Chua

Последние достижения в области больших языковых моделей (БЯМ) способствовали широкому внедрению БЯМ в качестве интерактивных агентов, способных к рассуждению, планированию и использованию инструментов. Несмотря на высокую производительность на существующих эталонах, такие агенты часто демонстрируют заметное ухудшение при развертывании в реальных условиях, где среда по своей природе стохастична и несовершенна. Мы утверждаем, что это расхождение обусловлено фундаментальным несоответствием между идеализированными условиями обучения и динамикой реального взаимодействия, поскольку текущие парадигмы опираются на тщательно подобранные инструкции задач и стабильные, хорошо контролируемые среды. Для устранения этого разрыва мы предлагаем NoisyAgent — фреймворк для обучения агентов, который явным образом включает несовершенства среды в процесс обучения агента. Мы выделяем два основных источника интерактивного шума в реальных сценариях: пользовательский шум, отражающий неоднозначность и изменчивость взаимодействия с пользователем, и инструментальный шум, отражающий сбои и аномалии в выполнении инструментов. Мы вводим такие возмущения в обучающий конвейер путем изменения паттернов взаимодействия с пользователем и имитации результатов выполнения инструментов в учебной среде. Для стабилизации обучения при одновременном стимулировании агентов справляться с все более сложными несовершенствами шум применяется только к подмножеству траекторий и постепенно усложняется по мере адаптации модели к текущему уровню шума. Обширные эксперименты демонстрируют, что наш подход последовательно повышает устойчивость агентов в зашумленных и динамичных средах. Наш анализ показывает, что обучение в условиях шума также приводит к повышению производительности на идеализированных эталонах, что позволяет предположить, что контролируемое воздействие шума среды способствует более обобщаемым моделям рассуждения и принятия решений. Наши выводы подчеркивают важность моделирования несовершенств взаимодействия для преодоления разрыва между обучением агентов и их реальным развертыванием.

FastKernels: Бенчмаркинг генерации ядер GPU в производственной среде
FastKernels: Benchmarking GPU Kernel Generation in Production

May 22

ByGabriele Oliaro, Yichao Fu, May Jiang, Owen Lu, Junli Wang, Zhihao Jia, Hao Zhang, Samyam Rajbhandari

Агенты на основе LLM для генерации GPU-ядер быстро развиваются, однако их прогресс принципиально ограничивается бенчмарками, под которые они оптимизируются. Существующие бенчмарки плохо согласованы с производственными фреймворками инференса: они оценивают ядра на одном GPU с синтетическими входными данными, игнорируют окружающий стек компиляции и поощряют воспроизведение известных оптимизаций, а не поиск новых. Получаемые сигналы вознаграждения вводят в заблуждение: агенты учатся генерировать ядра, которые хорошо показывают себя в песочницах, но при интеграции в реальные системы вызывают несовместимость интерфейсов, конфликты в стеке компиляции и скрытое ухудшение корректности. Мы представляем FastKernels — бенчмарк для ядер, построенный на минимальном наборе из 46 репрезентативных архитектур, охватывающих 8 категорий, чьи ядра в совокупности покрывают ядра 96,2% (409/425) архитектур HuggingFace Transformers. FastKernels также выступает в качестве минималистичного производственного фреймворка инференса, который работает наравне с закаленными системами, такими как vLLM и SGLang, при обслуживании основных LLM и существенно превосходит эталонные реализации для недостаточно обслуживаемых архитектур; интерфейс каждой задачи повторяет соответствующий модуль из современной библиотеки для своего семейства архитектур, что позволяет напрямую развертывать оптимизированные ядра в производственных кодовых базах. Оценивая современные агенты для ядер на FastKernels, мы обнаружили, что даже самый сильный агент достигает лишь 0,94-кратного общего ускорения относительно производственных базовых показателей, а более слабые агенты — 0,78-кратного и 0,53-кратного, что подтверждает, что несоответствие между бенчмарками и производством является критическим узким местом в данной области. Мы публикуем FastKernels как ступеньку на пути к агентам для ядер, чьи бенчмарковые достижения напрямую преобразуются в улучшение производственной пропускной способности. Код доступен по адресу https://github.com/Snowflake-AI-Research/fastkernels

ZeroUnlearn: Малошотовое разучение знаний в больших языковых моделях
ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models

May 20

ByYujie Lin, Chengyi Yang, Zhishang Xiang, Yiping Song, Jinsong Su

Крупные языковые модели неизбежно сохраняют конфиденциальную информацию, определяемую как входные данные, которые могут вызывать вредоносные генерации, из-за обучения на огромных веб-корпусах, что вызывает обеспокоенность по поводу конфиденциальности и безопасности. Существующие методы машинного забывания в основном полагаются на переобучение или агрессивную тонкую настройку, которые либо требуют значительных вычислительных затрат, либо склонны ухудшать связанные знания и общую полезность модели. В этой работе мы переформулируем машинное забывание как задачу точного переназначения знаний с помощью редактирования модели. Мы предлагаем ZeroUnlearn — фреймворк для забывания на основе нескольких примеров. Он перезаписывает конфиденциальные входные данные, отображая их в нейтральное целевое состояние и удаляя их исходные представления. ZeroUnlearn обеспечивает ортогональность представлений с помощью мультипликативного обновления параметров с решением в замкнутой форме, что позволяет осуществлять эффективное и целенаправленное забывание. Мы также расширяем ZeroUnlearn до варианта на основе градиента для забывания множественных образцов. Эксперименты показывают, что наш подход превосходит существующие базовые методы, сохраняя при этом общую полезность модели. Наш код доступен на GitHub: https://github.com/XMUDeepLIT/ZeroUnlearn.

SAM: Адаптивная к состоянию память для агента долгосрочного рассуждения
SAM: State-Adaptive Memory for Long-Horizon Reasoning Agent

May 23

ByYuyang Hu, Hongjin Qian, Shuting Wang, Jiongnan Liu, Ziliang Zhao, Jiejun Tan, Zheng Liu, Zhicheng Dou

Долгосрочное агентное рассуждение требует от больших языковых моделей работы с длинными историями взаимодействий, содержащими мысли, вызовы инструментов, наблюдения и частичные выводы. Проблема не только в том, что эти истории становятся длинными, но и в том, что информация, необходимая для текущего решения, может быть разбросана по удалённым шагам и становиться актуальной лишь впоследствии. Существующие подходы пытаются решить эту трудность путём усечения истории взаимодействия, сжатия её в более короткие суррогаты или извлечения отдельных частей для повторного использования, однако они не моделируют явным образом то, как доступ к прошлым взаимодействиям должен адаптироваться к изменяющемуся состоянию агента. Вместо этого мы рассматриваем долгосрочное рассуждение как проблему адаптивной к состоянию памяти. С этой целью мы предлагаем State-Adaptive Memory (SAM) — автономную структуру, которая консолидирует текущее взаимодействие в компактные сигналы памяти, сохраняя при этом страницы необработанных траекторий для извлечения на основе намерений. Эти сигналы не рассматриваются как замена истории; скорее, они служат лёгковесными дескрипторами, позволяющими агенту реконструировать информацию, отдалённую во времени, в соответствии с текущими потребностями, без необходимости переобучения базовой основы. Мы дополнительно оптимизируем модуль памяти с помощью экспертного руководства и обучения с подкреплением, согласовывая его с полезностью на уровне траектории. На наборах данных BrowseComp, BrowseComp-ZH, WideSearch и HLE SAM последовательно превосходит сильные базовые модели при различных агентных основах. Наши результаты показывают, что явное моделирование памяти представляет собой простую и эффективную основу для долгосрочного агентного рассуждения.

MRT: Маскированный региональный трансформер для послойной генерации и редактирования изображений в масштабе
MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale

May 26

ByZhicong Tang, Zhao Zhang, Jingye Chen, Mohan Zhou, Yifan Pu, Yuchi Liu, Yalong Bai, Ethan Smith, Yuhui Yuan

Многослойная генерация и редактирование изображений — это фундаментальная возможность, обеспечивающая послойное повторное использование, редактирование и композицию сгенерированного визуального контента, по аналогии с редактированием на уровне слов в естественном языке. Несмотря на свою важность, эта область остается малоизученной в крупномасштабном контексте. Для решения этой проблемы мы представляем MRT — диффузионную модель с маскировкой областей на 20 миллиардов параметров, предназначенную для многослойной генерации и редактирования прозрачных изображений. Модель обучена на более чем 10 миллионах многоязычных дизайнерских образцов, охватывающих различные соотношения сторон и текстовые подсказки. Чтобы полностью использовать этот масштаб, мы делаем два ключевых технических вклада. Во-первых, мы объединяем три взаимодополняющие задачи: «текст в слои», «изображение в слои» и «слои в слои» — в рамках единой диффузионной схемы с маскировкой областей, где выборочное маскирование токенов обеспечивает гибкую послойную генерацию и редактирование. Во-вторых, для генерации слоев, выходящих за границы, мы вводим осведомленный о переполнении слой-холст, который обрабатывает граничные несоответствия и поддерживает синтез полупрозрачного фона, обеспечивая создание полностью редактируемых слоев, выходящих за видимые границы холста. Кроме того, мы применяем диффузионную дистилляцию для достижения 8-шаговой многослойной генерации в реальном времени с минимальной потерей качества. Обширные эксперименты показывают, что наша структура значительно превосходит предыдущие современные подходы, включая различные коммерческие системы, по всем трем задачам, устанавливая новый эталон для многослойной генерации прозрачных изображений. Примечательно, что наша модель значительно превосходит параллельно разработанную модель Qwen-Image-Layered по качеству преобразования изображения в слои, согласно результатам пользовательских исследований, обеспечивая при этом в 10–100 раз более быстрый вывод и снижая потребление активационной памяти GPU на 50–90% во время вывода задачи «изображение в слои».

RT-Lynx: Правильное применение разреженности GEMM для диффузионных моделей
RT-Lynx: Putting the GEMM Sparsity In a Right Way for Diffusion Models

May 26

ByXing Cong, Hanlin Tang, Kan Liu, Lan Tao, Lin Qu, Chenhao Xie

Диффузионные трансформеры (Diffusion Transformers, DiT) демонстрируют высокую производительность в задачах генерации изображений, однако сопряжены со значительными вычислительными затратами при инференсе. Предшествующие работы снижали эти затраты с помощью квантования и дистилляции, но полуструктурированная разреженность, способная почти вдвое сократить количество FLOPs, остаётся малоизученной. Ключевая причина этого заключается в том, что большинство существующих подходов сосредоточены на разреживании весов, а прореживание 50% весов может привести к потере критической ёмкости модели и ухудшению качества генерации. Однако наше исследование показывает, что активации DiT по своей природе разрежены и значительно более устойчивы к N:M полуструктурированному разреживанию, чем веса. Основываясь на этом наблюдении, мы предлагаем сдвиг парадигмы от разреживания весов к разреживанию активаций. Мы представляем RT-Lynx, который применяет N:M разреживание к активациям и включает методы компенсации ошибок для уменьшения потери точности. Кроме того, мы реализуем высокооптимизированные ядра CUDA, адаптированные для данного сценария, что позволяет достичь в среднем ускорения до 1,55x в линейных слоях. Обширные эксперименты на нескольких диффузионных моделях демонстрируют, что наш метод сохраняет качество генерации исходных моделей, одновременно существенно ускоряя инференс.

Agentic CLEAR: Автоматизация многоуровневой оценки агентов LLM
Agentic CLEAR: Automating Multi-Level Evaluation of LLM Agents

May 21

ByAsaf Yehudai, Lilach Eden, Michal Shmueli-Scheuer

Агентные системы становятся все более способными: агенты определяют стратегии, выполняют действия и взаимодействуют с различными средами. Такая автономность создает серьезные проблемы для контроля и оценки поведения агентов. Большинство существующих инструментов ограничены: они либо сосредоточены на наблюдаемости с базовыми возможностями оценки, либо навязывают статические, вручную составленные таксономии ошибок, не адаптируемые к новым областям. Для устранения этого пробела мы представляем Agentic CLEAR — автоматическую, динамическую и простую в использовании систему оценки. Она генерирует текстовые инсайты о поведении агента на трех уровнях детализации: система, трасса и узел. Agentic CLEAR работает поверх уровня наблюдаемости, обеспечивая бесшовную интеграцию, и обладает интуитивно понятным пользовательским интерфейсом, делающим оценку агентов высокодоступной. В наших экспериментах на четырех бенчмарках, семи агентных конфигурациях и десятках тысяч вызовов LLM мы показываем, что Agentic CLEAR предоставляет качественную, основанную на данных и содержательную обратную связь. Наш анализ демонстрирует сильное соответствие с размеченными человеком ошибками и способность прогнозировать показатель успешности выполнения задач.

Понимание влияния темпоральности данных на предварительное обучение больших языковых моделей
Understanding Data Temporality Impact on Large Language Models Pre-training

May 21

ByPilchen Hippolyte, Fabre Romain, Signe Talla Franck, Perez Patrick, Grave Edouard

Большие языковые модели (LLM) обычно обучаются на перемешанных корпусах, что приводит к фиксации знаний на момент обучения, а их временная привязка остаётся плохо изученной. В данной работе мы исследуем влияние динамики предобучения на приобретение чувствительных ко времени фактических знаний, уделяя особое внимание порядку данных. Наш вклад состоит из двух частей. Во-первых, мы представляем всесторонний бенчмарк, включающий более 7 000 вопросов с временной привязкой, и протокол оценки, позволяющий анализировать, правильно ли модели соотносят факты с соответствующими временными периодами. Во-вторых, мы проводим предобучение моделей с 6 миллиардами параметров на упорядоченных по времени срезах Common Crawl и сравниваем их со стандартным перемешанным предобучением. Наши результаты показывают, что последовательно обученные модели соответствуют перемешанным базовым моделям по общему пониманию языка и общим знаниям, при этом демонстрируя более актуальные и точные с точки зрения времени знания. Упорядоченное по времени предобучение обеспечивает улучшенную фактическую актуальность, в то время как перемешанное предобучение достигает пика на более старых данных, возможно, из-за повышенного повторения фактов. Эти результаты, а также публикация нашего кода по адресу https://github.com/kyutai-labs/kairos , контрольных точек и наборов данных по адресу https://huggingface.co/collections/kyutai/kairos , создают основу для будущих исследований в области непрерывного обучения для LLM.

Могут ли LLM заниматься интроспекцией? Проверка на реальность
Can LLMs Introspect? A Reality Check

May 25

ByShashwat Singh, Tal Linzen, Shauli Ravfogel

Могут ли большие языковые модели обнаруживать и сообщать о своих собственных внутренних состояниях? Ряд исследований утверждает, что ответ на этот вопрос положителен. Мы утверждаем, основываясь на уроках из исследований метапознания у людей, что этот вывод может быть преждевременным: чтобы убедиться в нем, необходимо отличать подлинную интроспекцию от распознавания образов на основе поверхностных признаков. Более того, мы утверждаем, что только поведенческие данные по своей сути недостаточны для установления сильных интроспективных утверждений. Мы заново рассматриваем две недавно предложенные парадигмы оценки с учетом этого соображения. В первой парадигме ожидается, что модели обнаруживают, были ли изменены их внутренние состояния. Мы обнаруживаем, что модели не могут надежно отличить такие вмешательства в их внутренние состояния от манипуляций с входными данными, что позволяет предположить, что их успех в исходных исследованиях отражает их способность обнаруживать аномалии в целом, а не вмешательства в их внутренние состояния в частности. Во второй парадигме, которую мы рассматриваем, модели ставят задачу предсказания меток, полученных из их собственных скрытых состояний. Здесь мы обнаруживаем, что классификаторы, имеющие доступ только к входным данным, достигают производительности, эквивалентной собственным контекстным предсказаниям модели, что указывает на то, что исходные результаты не демонстрируют окончательно, что модель имеет привилегированный доступ к своим внутренним представлениям. Мы дополнительно вводим контрольную установку с перемаркировкой, где модели не могут полагаться на семантику задачи для ее решения, а вместо этого должны полагаться на внутреннее представление; в этой более контролируемой версии задачи модели работают ближе к уровню случайности. В совокупности эти результаты указывают на то, что текущих доказательств недостаточно для установления того, что большие языковые модели демонстрируют метакогнитивный мониторинг.

NSF-SciFy: извлечение научных утверждений из базы данных грантов NSF
NSF-SciFy: Mining the NSF Awards Database for Scientific Claims

May 25

ByDelip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch

Мы представляем NSF-SciFy — комплексный набор данных научных утверждений и предложений по исследованиям, извлечённых из аннотаций грантов Национального научного фонда (NSF). Тогда как предыдущие наборы данных для верификации научных утверждений были ограничены по размеру и охвату, NSF-SciFy представляет собой значительный шаг вперёд, включая 2,8 миллиона утверждений из 400 000 аннотаций, охватывающих все научные и математические дисциплины. Мы предлагаем два специализированных подмножества: NSF-SciFy-MatSci, содержащий 114 000 утверждений из грантов по материаловедению, и NSF-SciFy-20K, включающий 135 000 утверждений из пяти директоратов NSF. Используя нулевое обучение, мы разработали масштабируемый подход для совместного извлечения научных утверждений и предложений по исследованиям. Мы демонстрируем полезность набора данных на трёх последующих задачах: генерация нетехнических аннотаций, извлечение утверждений и извлечение предложений по исследованиям. Дообучение языковых моделей на нашем наборе данных приводит к существенным улучшениям, причём относительный прирост часто превышает 100%, особенно для задач извлечения утверждений и предложений. Анализ ошибок показывает, что извлечённые утверждения обладают высокой точностью, но низкой полнотой, что указывает на возможности дальнейшего методологического совершенствования. NSF-SciFy открывает новые направления исследований в области крупномасштабной верификации утверждений, отслеживания научных открытий и метанаучного анализа. Код и данные доступны по адресу https://github.com/darpa-scify/NSFSciFy.

CroCo: Кросс-языковая контрастивная настройка предпочтений на самогенерациях
CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations

May 25

ByMike Zhang, Ali Basirat, Desmond Elliott

Предыдущие работы показывают, что контролируемая контрастность между самостоятельно сгенерированными ответами больших языковых моделей, задаваемая с помощью оценок вознаграждения, улучшает последующую настройку предпочтений на английском языке. Мы расширяем этот метод на несколько языков и оцениваем две модели в общей сложности на 14 высоко- и низкоресурсных языках на разнообразном наборе задач. Наш основной вывод заключается в том, что кросс-языковая контрастная настройка предпочтений на самогенерируемых ответах (CroCo) переносится без аннотации предпочтений для конкретного языка. Модель вознаграждения, обученная на английских предпочтениях (на основе мультиязычной базы), выдает полезные внутриязыковые рейтинги для большинства языков, а объединение в одно- или многоязычном режиме улучшает каждую модель в большинстве сценариев, предотвращая катастрофическое забывание контролируемой тонкой настройки. Мы наблюдаем, что для выигрыша требуются данные, соответствующие политике (on-policy). Ответы, не соответствующие политике (off-policy), снижают выгоду, а онлайн-оптимизация предпочтений не превосходит офлайн-вариант. В частности, на структурированных задачах наш метод соответствует или превосходит базовый для 6/7 языков по EuroLLM-9B и 4/7 сценариев по Aya-3B. В открытой генерации обе настроенные модели выигрывают у своих базовых моделей на 11 оцененных языках. В целом, мы демонстрируем перспективные направления для мультиязычной настройки предпочтений.

Обучение высокочастотных непрерывных фрагментов действий в латентном пространстве
Learning High-Frequency Continuous Action Chunks in Latent Space

May 24

ByKunyun Wang, Yuhang Zheng, Yupeng Zheng, Jieru Zhao, Wenchao Ding

Современные роботизированные политики всё чаще полагаются на чанкинг действий для выполнения сложных задач в физическом мире. Хотя чанкинг действий улучшает временную согласованность при умеренных частотах действий, он становится недостаточным при дальнейшем увеличении частоты действий (например, до 60 Гц). На таких высоких частотах политики часто не могут генерировать действия, которые были бы одновременно временно плавными и пространственно согласованными. Мы решаем эту задачу, перенося обучение высокочастотным действиям из пространства действий в скрытое пространство с помощью вариационного автоэнкодера (VAE). Такая формулировка значительно улучшает как временную, так и пространственную согласованность высокочастотного управления. Для обеспечения плавного выполнения в реальном времени мы дополнительно вводим Reuse-then-Refine — стратегию уточнения на уровне чанков, которая улучшает непрерывность между соседними чанками действий при асинхронном выводе. В результате роботы, управляемые нашей политикой, могут выполнять сложные задачи, связанные с контактом, непрерывно, с меньшим количеством пауз и дерганых движений. Эксперименты на трёх реальных контактно-насыщенных роботизированных задачах показывают, что наш подход последовательно выполняет задачи с плавными движениями. Наш код и данные доступны по адресу https://github.com/tars-robotics/RTR.

EverAnimate: Минутная анимация человека посредством восстановления латентного потока
EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration

May 14

ByWuyang Li, Yang Gao, Mariam Hassan, Lan Feng, Wentao Pan, Po-Chien Luan, Alexandre Alahi

Мы представляем EverAnimate — эффективный метод пост-обучения для генерации анимационных видео с длинным горизонтом, сохраняющий визуальное качество и идентичность персонажа. Длинная анимация остаётся сложной задачей, поскольку высокодинамичные движения человека должны синтезироваться на фоне относительно статичного окружения, что делает чанковую генерацию подверженной накопительному дрейфу: (i) дрейф низкоуровневого качества, например, прогрессирующая деградация статических фонов, и (ii) высокоуровневый семантический дрейф, такой как несогласованная идентичность персонажа и зависимые от ракурса атрибуты. Для решения этой проблемы EverAnimate восстанавливает дрейфующие траектории потока, привязывая генерацию к постоянной контекстной памяти в латентном пространстве, состоящей из двух взаимодополняющих механизмов. (i) Постоянное латентное распространение поддерживает контекстную память между чанками для распространения идентичности и движения в латентном пространстве, одновременно смягчая временное забывание. (ii) Восстановительное согласование потоков вводит неявную цель восстановления во время сэмплирования через регулировку скорости, улучшая точность внутри чанка. Только с помощью лёгкой настройки LoRA EverAnimate превосходит современные методы длинной анимации как в коротких, так и в длинных горизонтах: при 10 секундах он улучшает PSNR/SSIM на 8%/7% и снижает LPIPS/FID на 22%/11%; при 90 секундах прирост увеличивается до 15%/15% и 32%/27% соответственно.

STREAM: дата-центрический фреймворк для извлечения высокоценных целеориентированных диалогов из потоковых медиа
STREAM: A Data-Centric Framework for Mining High-Value Task-Oriented Dialogues from Streaming Media

May 24

ByLiang Xue, Haoyu Liu, Cheng Wang, Pengyu Chen, Haozhuo Zheng, Yang Liu

Крупные языковые модели для вертикальных доменов ограничены нехваткой сложных, предметно-ориентированных диалогов по выполнению задач. Существующие конвейеры получения данных сталкиваются с устойчивой трилеммой: экспертная разметка дорогостояща, реальные сервисные разговоры ограничены требованиями конфиденциальности и коммерческими ограничениями, а статические корпуса быстро устаревают. Мы предлагаем Stream — ориентированную на данные структуру, которая использует общедоступные потоковые медиа (прямые эфиры и короткие видео) для синтеза высокоценных сервисных диалогов в масштабе. Stream извлекает аутентичные сигналы взаимодействия из зашумленных потоков и синтезирует разговоры путем интеграции ролевого конструирования персоны с построением разговорного плана (Conversational Blueprint); дополнительно применяется генерация с дополнением по поиску (RAG) для поддержки ответов, учитывающих знания. На основе Stream мы выпускаем StreamDial — крупномасштабный многодоменный набор данных, охватывающий автомобильную сферу, рестораны и гостиницы. StreamDial содержит 87 498 диалоговых сессий и в общей сложности 1 497 320 реплик, в среднем 17,11 реплик на сессию, со сравнимым объемом по доменам. Каждая сессия организована в виде структурированного квадруплета ⟨P_u, P_a, B, H⟩, который объединяет историю диалога с явными персонами пользователя/агента и разговорным планом, фиксируя реалистичное сервисное поведение, такое как сбор требований, конфликты ограничений, переговоры и восстановление. Оценки с помощью автоматических критериев и по нисходящим задачам показывают, что StreamDial улучшает внутреннее качество диалога по сравнению с сильными базовыми линиями, а модели, обученные на StreamDial, улучшают отслеживание состояния диалога (Dialogue State Tracking) для различных базовых архитектур; мы также сообщаем о завершенном наборе результатов человеческой оценки и обнадеживающем многоязычном переносе на Qwen3-8B при контролируемом бюджете обучения. Данные опубликованы по адресу https://github.com/hitxueliang/DialogDataSetBySTREAM.