HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

49 papers found

DVAO: Динамическая дисперсионно-адаптивная оптимизация преимущества для многонаградного обучения с подкреплением
DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

May 25

ByGuochao Jiang, Jingyi Song, Guofeng Quan, Chuzhan Hao, Guohua Liu, Yuewei Zhang

116

Обучение с подкреплением стало стандартной парадигмой для согласования больших языковых моделей с намерениями человека и требованиями задачи. Хотя групповая относительная оптимизация политики предлагает эффективную альтернативу проксимальной оптимизации политики без использования модели ценности, её адаптация к многокритериальным задачам в реальных условиях остаётся сложной. Стандартные подходы скаляризации, такие как комбинация вознаграждений и комбинация преимуществ, имеют существенные недостатки: комбинация вознаграждений часто порождает преимущества с чрезмерно большими квадратичными значениями, что приводит к нестабильности обучения, в то время как комбинация преимуществ опирается на статические гиперпараметры и игнорирует корреляции между различными целями. Для преодоления этих ограничений мы предлагаем метод динамической вариационно-адаптивной оптимизации преимуществ (DVAO), который динамически корректирует веса комбинации на основе эмпирической дисперсии вознаграждений каждой цели в рамках группы развертывания, эффективно увеличивая вес целей с более сильным обучающим сигналом и подавляя зашумлённые. Мы математически доказываем, что DVAO сохраняет ограниченные значения преимуществ для стабильного обучения и вводит механизм самоадаптивной регуляризации между различными целями. Обширные эксперименты на задачах математических рассуждений и тестах использования инструментов с моделями Qwen3 и Qwen2.5 показывают, что DVAO значительно превосходит базовые методы, обеспечивая лучшую многокритериальную границу Парето и устойчивую стабильность обучения.

WBench: Комплексный многораундовый бенчмарк для оценки интерактивной видеомодели мира
WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

May 25

ByKaining Ying, Hengrui Hu, Siyu Ren, Jiamu Li, Fengjiao Chen, Ziwen Wang, Xuezhi Cao, Xunliang Cai, Henghui Ding

Интерактивные модели мира стремительно развиваются, однако существующие бенчмарки охватывают лишь часть необходимых компетенций, не предоставляя единого стандарта для систематической оценки. Для заполнения этого пробела мы представляем WBench — комплексный многошаговый бенчмарк для оценки интерактивных моделей мира по пяти измерениям: качество видео, соответствие настройкам, соответствие взаимодействию, согласованность и соблюдение физических законов. WBench содержит 289 тестовых случаев и 1 058 шагов взаимодействия, каждый из которых задает настройки мира и последовательность многошагового взаимодействия, охватывая разнообразные сцены, стили, субъекты, а также перспективы от первого и третьего лица, наряду с четырьмя типами взаимодействия: навигация, действие субъекта, редактирование событий и смена перспективы. Для навигации WBench унифицирует управление с помощью текста, 6-степенной свободы позы и дискретных действий, что позволяет оценивать модели с различными нативными интерфейсами ввода. Оценка использует 22 автоматические субметрики, сочетающие специализированные модели зрения с большими мультимодальными моделями, причем все метрики валидированы относительно человеческих оценок. При тестировании 20 современных моделей мы обнаружили, что ни одна из них не показывает высоких результатов по всем измерениям. Мы предоставляем подробные диагностические сведения о характерных сильных и слабых сторонах каждой модели, а также о нерешенных задачах. Код и данные доступны по адресу https://github.com/meituan-longcat/WBench.

Macaron-A2UI: Модель для генеративного пользовательского интерфейса в персональных агентах
Macaron-A2UI: A Model for Generative UI in Personal Agents

May 24

ByFancy Kong, Congjie Zheng, Murphy Zhuang, Rio Yang, Sueky Zhang, Hao Fu, Gene Jin, Song Cao, Kaijie Chen, Andrew Chen, Pony Ma

По мере того, как персональные агенты эволюционируют для выполнения сложных, ориентированных на пользователя задач, статический чат с простым текстом быстро становится узким местом. Генеративный пользовательский интерфейс (Generative UI) выступает в качестве необходимого нового уровня интерфейса, динамически синтезирующего в реальном времени нужные элементы управления, опции и состояние из контекста взаимодействия. Мы представляем Macaron-A2UI — модель для генеративного UI в персональных агентах. Наша цель — выйти за рамки чисто текстового взаимодействия, позволив агентам генерировать естественный язык вместе с легковесными, выполняемыми действиями UI для сбора информации, уточнения предпочтений, подтверждения и организации множества целей. Мы строим крупномасштабный корпус генеративного UI из разнородных источников диалогов, представляем A2UI-Bench для контролируемой оценки и обучаем модели с 30 миллиардами, 235 миллиардами и 754 миллиардами параметров с использованием параметрически эффективного контролируемого дообучения на основе LoRA, за которым следует обучение с подкреплением на основе вознаграждений. Лучшая модель Macaron-A2UI достигает общей оценки 75,6 на A2UI-Bench без явных подсказок схемы, превосходя самый сильный передовой базовый уровень с полной схемой. Мы выпускаем модели, бенчмарк и протокол оценки для поддержки будущих работ по генеративному UI для персональных агентов.

Протокол Foundation: Координационный слой для агентного общества
Foundation Protocol: A Coordination Layer for Agentic Society

May 22

ByBang Liu, Yongfeng Gu, Jiayi Zhang, Zhaoyang Yu, Sirui Hong, Maojia Song, Xiaoqiang Wang, Mingyi Deng, Zijie Zhuang, Ronghao Wang, Mingzhe Cao, Yutong Zhu, Xingjian Li, Yifan Wu, Jianhao Ruan, Yiran Peng, Shuangrui Chen, Jinlin Wang, Yizhang Lin, Dongjie Zhang, Dekun Wu, Chen Ma, Lizi Liao, Han Yu, Jian Pei, Heng Ji, Qiang Yang, Yuyu Luo, Chenglin Wu

Автономные агенты переходят из разряда инструментов в слой социальной инфраструктуры: они просматривают, приобретают и развёртывают программное обеспечение, управляют системами и всё активнее взаимодействуют друг с другом. По мере масштабирования этих систем узкое место смещается от сырых возможностей моделей к координации. Агентам необходимо формировать надёжные отношения, организовывать многолетнюю работу, обмениваться ценностями, поддерживать экономику ИИ, а также оставаться безопасными и подотчётными в условиях реального контроля. В данной статье представлен Протокол Основания (Foundation Protocol, FP) — слой координации, основанный на графах, для формирующегося человеко-машинного общества. FP объединяет разнородные сущности, включая агентов, инструменты, ресурсы, людей, учреждения и организации, а также поддерживает нативную многопользовательскую организацию и событийно-ориентированное сотрудничество. Кроме того, он предоставляет экономические примитивы для учёта, квитирования и расчётов, а также рассматривает политику, происхождение и аудит как первостепенные задачи. FP спроектирован так, чтобы оборачивать и связывать существующие протоколы, а не заменять их, обеспечивая поэтапное внедрение при снижении накладных расходов на интеграцию и управление. Цель — сохранить композиционность автономных агентов, сделав подотчётность бескомпромиссной, чтобы сама координация могла стать общей инфраструктурой для открытого, плюралистического и управляемого человеко-машинного общества.

TriSplat: Готовая к симуляции feed-forward реконструкция трехмерной сцены
TriSplat: Simulation-Ready Feed-Forward 3D Scene Reconstruction

May 25

ByWeijie Wang, Zimu Li, Jinchuan Shi, Zeyu Zhang, Botao Ye, Marc Pollefeys, Donny Y. Chen, Bohan Zhuang

Восстановление 3D-сцен по малому числу ракурсов всё чаще выполняется с помощью сетей прямого распространения со сплаттингом, которые предсказывают явные примитивы непосредственно по изображениям. Однако большинство существующих методов по-прежнему сосредоточены на гауссовых примитивах и представляют поверхности лишь косвенно: извлечение пригодной для использования сетки для последующего моделирования, физического анализа или воплощённого взаимодействия по-прежнему требует дорогостоящих пост-шагов, нарушающих парадигму прямого распространения. Это ограничение особенно заметно в условиях отсутствия поз, где структура сцены и параметры камеры должны оцениваться совместно по разреженным наблюдениям. Мы представляем TriSplat — сеть прямого распространения для реконструкции, которая представляет сцены с помощью ориентированных треугольных примитивов и напрямую экспортирует готовые для моделирования сетчатые сцены за один прямой проход. Получив входные изображения, сеть предсказывает локальные трёхмерные карты точек, атрибуты треугольников, позы камер и опционально внутренние параметры. Вместо регрессии ориентации треугольников как неограниченной скрытой переменной наш подход строит геометрические нормали из предсказанных карт точек, уточняет их с помощью головы нормалей, обусловленной изображениями, и преобразует в устойчивые локальные системы координат для параметризации треугольников. Мононормальное расписание начальной загрузки дополнительно стабилизирует раннее обучение, а расписание непрозрачности и размытия постепенно улучшает представление изученной поверхности для прямого извлечения сетки. Эксперименты на RealEstate10K и DL3DV показывают, что такое представление даёт более геометрически точные реконструкции по сравнению с базовыми методами прямого распространения на гауссовых примитивах, сохраняя при этом конкурентоспособное качество синтеза новых ракурсов. Поскольку сами примитивы рендеринга являются поверхностными треугольниками, результат может быть напрямую передан физическим движкам, детекторам коллизий и стандартным конвейерам рендеринга без какого-либо преобразования, что делает это практическим решением, готовым для моделирования, в рамках прямого распространения для реконструкции трёхмерных сцен.

К нативному мультимодальному моделированию: дорожная карта
Toward Native Multimodal Modeling: A Roadmap

May 25

BySiyu An, Junru Lu, Junnan Dong, Qiufeng Wang, Yinghui Li, Weizhi Fei, Zichao Yu, Zheng Yuan, Biao Liu, Haopeng Wang, Renzhao Liang, Yixuan Yang, Yunhang Shen, Bo Ke, Keyu Chen, Linhao Luo, Difan Zou, Xiao Huang, Di Yin, Ruizhi Qiao, Xing Sun

Мультимодальное моделирование представляет собой важный шаг от модально-независимого рассуждения к моделированию мира. В то время как ранние подходы в основном полагались на позднее слияние, объединяющее кодеры и замороженные языковые магистрали с выходными головками, недавние усилия сместили парадигму в сторону нативного мультимодального моделирования (НММ) с внутренней интеграцией модальностей для достижения превосходной мультимодальной производительности. Несмотря на его потенциал, пространство проектных решений нативных архитектур остается недостаточно определенным. В данной статье мы предлагаем научному сообществу формализованную дорожную карту для этого перехода. В частности, мы формально определяем архитектурную нативность, отличая среднее слияние и раннее слияние от ненативных парадигм. Мы также организуем существующие нативные модели через призму дуальности ввода-вывода в три категории: (i) «Мульти-к-Тексту» для кросс-модального понимания с выводом только текста; (ii) «Мульти-к-Цели» для сценарно-ориентированной генерации, например, генерации изображений, аудио и видео; и (iii) «Мульти-к-Мульти» для единого моделирования с симметричным вводом-выводом. Мы проводим всестороннее исследование промышленного уровня перехода к окончательной структуре НММ, где понимание и генерация бесшовно сосуществуют в рамках единой парадигмы трансформера. Мы систематически раскрываем сквозной конвейер с промышленных точек зрения: от архитектурной координации, курирования больших данных до полностековых рецептов обучения, инференса и развертывания, а также всесторонней оценки для действительно нативного моделирования.

ParaVT: Укрощение парадокса априорных знаний об инструментах для их параллельного использования в агентном видео-обучении с подкреплением
ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning

May 19

ByZuhao Yang, Kaichen Zhang, Sudong Wang, Keming Wu, Zhongyu Yang, Bo Li, Xiaojuan Qi, Shijian Lu, Xingxuan Li, Lidong Bing

Обучение больших мультимодальных моделей (БММ) с помощью обучения с подкреплением (RL) для нативного вызова инструментов обработки видео (например, кадрирования) становится перспективным подходом к пониманию длинных видео. Однако существующие нативные RL-методы выполняют вызовы инструментов последовательно (по одному за шаг): единственная ошибка кадрирования распространяет ошибки без возможности коррекции, многошаговые вызовы инструментов загромождают контекст, а затраты на инференс линейно растут с числом шагов. Мы представляем ParaVT — первую мультиагентную сквозную RL-обученную структуру для параллельного вызова видеоинструментов, которая выполняет несколько кадрирований временных окон за один шаг, обеспечивая более чистый контекст и лучшую устойчивость к ошибкам. Однако применение стандартного RL к ParaVT выявляет препятствие, которое мы называем Парадоксом априорных знаний об инструментах: предварительно обученные априорные знания об инструментах, позволяющие их исследование, одновременно дестабилизируют холодно-запущенный структурный формат и создают сокращенный путь вознаграждения за пропуск инструмента при температурной выборке. Сравнение между моделями с более слабыми априорными знаниями подтверждает это утверждение: формат остается стабильным, но RL не вызывает ни одного вызова инструмента, что указывает на то, что сила априорных знаний является общей причиной как коллапса формата, так и исследования инструментов. Мы предлагаем ПАРА-GRPO (основанная на разбираемости и управляемая коэффициентом GRPO), которая дополняет стандартное RL двумя взаимодополняющими механизмами: (i) целевая награда за формат, применяемая только на позициях структурных токенов, наиболее склонных к коллапсу, и (ii) рандомизация кадрового бюджета на каждый запрос, создающая обучающие запросы, в которых вызов инструмента дает измеримый сигнал вознаграждения по сравнению с его пропуском. На шести эталонных тестах понимания длинных видео ParaVT в среднем улучшает базовую модель Qwen3-VL на +7,9%, при этом ПАРА-GRPO повышает соответствие формату во время обучения с 0,13 до 0,64. По мере того как возможности инструментов все больше интернализируются в современных БММ, RL должно сотрудничать с возникающими априорными знаниями, и ParaVT предлагает общий рецепт для агентного RL. Код, данные и веса моделей находятся в открытом доступе.

QUEST: Обучение передовых агентов глубокого исследования на полностью синтетических задачах
QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

May 22

ByJian Xie, Tianhe Lin, Zilu Wang, Yuting Ning, Yuekun Yao, Tianci Xue, Zhehao Zhang, Zhongyang Li, Kai Zhang, Yufan Wu, Shijie Chen, Boyu Gou, Mingzhe Han, Yifei Wang, Vint Lee, Xinpeng Wei, Xiangjun Wang, Yu Su, Huan Sun

Deep research agents расширяют роль поисковых систем от извлечения страниц, соответствующих ключевым словам, до синтеза знаний, принципиально изменяя то, как люди взаимодействуют с информацией. Однако передовые системы остаются проприетарными, в то время как существующие открытые агенты часто плохо обобщают разные типы задач, оставляя неясным, как обучить универсального агента глубокого поиска. Мы выпускаем QUEST — семейство открытых моделей (от 2B до 35B), которые служат агентами глубокого поиска общего назначения, предназначенными для обработки широкого спектра долгосрочных поисковых задач, с высокими возможностями в поиске фактов, обосновании цитирований и синтезе отчетов. Для создания QUEST мы предлагаем эффективную методику обучения, сочетающую промежуточное обучение, контролируемую тонкую настройку и обучение с подкреплением. Ключевым элементом этой методики является разработанный конвейер синтеза данных на основе унифицированных рубрикационных деревьев, который применим к различным типам задач и позволяет синтезировать обучающие данные с проверяемыми вознаграждениями без человеческой разметки. Кроме того, QUEST включает встроенный механизм управления контекстом, обеспечивающий эффективное долгосрочное рассуждение и синтез знаний. Используя всего 8K синтезированных задач, QUEST приближается к передовым агентам с закрытым кодом или даже превосходит их по восьми эталонам глубокого поиска, охватывающим различные типы задач, и достигает наилучшей общей производительности среди недавних агентов с открытыми весами. Мы опубликовали все: модели, данные и обучающие скрипты.

ThriftAttention: Выборочная смешанная точность для длинноконтекстного FP4-внимания
ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

May 21

ByJoe Sharratt

Эффективные алгоритмы внимания критически важны для снижения квадратичной стоимости внимания в задачах с длинным контекстом. Предшествующие работы применяют методы блочно-масштабированной квантизации на графических процессорах Blackwell для перевода вычислений внимания в 4-битную точность с целью ускорения инференса. Однако такие методы приводят к значительному ухудшению качества в условиях длинного контекста. Мы показываем, что влияние ошибки квантизации на выходные данные крайне неравномерно и возрастает с увеличением важности взаимодействия «запрос-ключ», концентрируя функционально значимые ошибки в небольшом числе блоков внимания, содержащих наиболее важные токены. Мы предлагаем ThriftAttention — вариант низкобитного внимания, обеспечивающий качество, близкое к FP16, при эффективности инференса на уровне FP4. Этот подход состоит из двух этапов. Сначала эвристика быстро выбирает небольшое количество важных пар блоков «запрос-ключ» для использования точности FP16. Затем выбранные блоки вычисляются в FP16, а остальные — в FP4, причём оба пути объединяются через онлайн-softmax в единый выходной результат. На примере эталонов длинного контекста и различных семейств моделей мы демонстрируем, что, вычисляя лишь 5% пар блоков «запрос-ключ» в FP16, ThriftAttention в среднем восстанавливает 89,1% разрыва в производительности между FP4 и FP16. Мы показываем, что преимущество ThriftAttention возрастает с увеличением длины последовательности, компенсируя систематическое ухудшение качества FP4, наблюдаемое на более длинных контекстах. Код доступен по адресу https://github.com/joesharratt1229/ThriftAttention.

AutoResearch AI: К автоматизации исследований с помощью ИИ для научных открытий
AutoResearch AI: Towards AI-Powered Research Automation for Scientific Discovery

May 22

ByGuiyao Tie, Jiawen Shi, Dingjie Song, Yixiao Huang, Ziji Sheng, Xueyang Zhou, Daizong Liu, Pan Zhou, Yongchao Chen, Ran Xu, Lifang He, Qingsong Wen, Manling Li, Cong Lu, Shuai Li, Pengtao Xie, Yixuan Yuan, Rui Meng, Lei Xing, Lichao Sun, Caiming Xiong, Philip S. Yu, Jianfeng Gao

Научные исследования преобразуются под влиянием систем ИИ, которые выходят за рамки изолированной помощи, переходя к долгосрочным рабочим процессам, охватывающим литературное обоснование, генерацию гипотез, экспериментирование, валидацию, отчетность и доработку. Этот сдвиг знаменует переход от ИИ уровня отдельных задач для науки к автоматизации исследований на уровне рабочих процессов. Однако современные системы остаются фрагментированными: они различаются по степени автономности, предметной области, среде выполнения, механизму валидации и уровню человеческого контроля, при этом все еще сталкиваются с проблемами сохранения доказательной базы, воспроизводимости, отклонения слабых направлений, отслеживания происхождения данных, междисциплинарной устойчивости и ответственного научного завершения. В данном обзоре рассматриваются эти изменения через концепцию AutoResearch, определяемую как спектр развития автоматизации научных рабочих процессов с использованием ИИ. В ее рамках Vibe Research обозначает область, управляемую человеком, где подсказки на естественном языке сопровождаются верификацией исполнения человеком, тогда как развивающиеся системы под руководством ИИ координируют более значительные части цикла открытий, не достигая при этом устойчивой автономии. Мы анализируем, как исследовательские системы перераспределяют контроль, доказательства, исполнение, валидацию и ответственность в рамках рабочих процессов, и систематизируем область вокруг пяти условий рабочего процесса: обоснование на основе литературы и исследования; формирование гипотез и планирование; экспериментирование и использование инструментов; обратная связь, валидация и рецензирование; отчетность и передача знаний. Далее мы обобщаем данные о системах ИИ-ученых, фреймворках совместных исследований со смешанной инициативой, бенчмарках, развертываниях в предметных областях и инфраструктурах с открытым исходным кодом. Наконец, мы предлагаем пять оценочных измерений — новизну, обоснованность, значимость, надежность и происхождение — и показываем, что автономия AutoResearch обусловлена предметной областью: она более достоверна в структурированных, выполнимых и быстро проверяемых условиях, но ограничена в контекстах, требующих воплощения, допускающих задержки, неоднородных, этических или институционально ответственных.

Ваша эмбеддинг-модель SMARTer, чем вы думаете
Your Embedding Model is SMARTer Than You Think

May 24

ByJianrui Zhang, Hyun Jung Lee, Sukanta Ganguly, Tae-Eui Kam, Donghyun Kim, Yong Jae Lee

Мультимодальный поиск в значительной степени опирается на одновекторные ретриверы, которые сжимают богатые последовательные токеновые последовательности в одно единое глобальное представление. Будучи эффективными, они отбрасывают мелкозернистые локальные свидетельства, критически важные для задач плотного поиска. Мультивекторные подходы были предложены как решение, но они строго требуют обучения, и многие игнорируют необходимость глобально обобщающего представления. Чтобы решить эту проблему, мы представляем SMART — фреймворк, который раскрывает скрытые мультивекторные возможности стандартных одновекторных моделей. Сначала мы демонстрируем, что стандартное контрастивное обучение на агрегированном эмбеддинге неявно формирует геометрию поиска предыдущих скрытых состояний через градиентный поток. Применяя прямое позднее взаимодействие над этими замороженными скрытыми состояниями во время инференса, SMART действует как модернизация типа «подключи и работай», которая последовательно улучшает производительность на различных модальностях, улучшая даже современные модели SOTA на MMEB-V2. Мы также раскрываем превосходную производительность SMART: простое легковесное пост-обучение не только экономит время и вычислительные ресурсы, но и приносит дополнительное улучшение в поиске визуальных документов, позволяя одновекторной модели превосходить современные многокомпонентные аналоги SOTA. В конечном итоге SMART предлагает как высокоэффективное улучшение инференса, так и мощную технику тонкой настройки для мультимодального поиска. Мы публикуем наш код и веса в открытом доступе по адресу https://github.com/HanSolo9682/SMART.

Pantheon360: Укрощение генерации цифровых двойников с помощью трехмерно-осведомленной диффузии 360-градусного видео
Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion

May 25

ByTing-Hsuan Chen, Ying-Huan Chen, Tao Tu, Jie-Ying Lee, Cho-Ying Wu, Fangzhou Lin, Hengyuan Zhang, David Paz, Xinyu Huang, Yuliang Guo, Yu-Lun Liu, Yue Wang, Liu Ren

Генерация полных цифровых двойников на основе видео требует точного управления камерой, глобального охвата сцены и строгих ограничений пространственно-временной согласованности, что остается сложной задачей для генераторов перспективного видео из-за их ограниченного поля зрения (FOV). Их узкое поле зрения вынуждает использовать длинные или многовидовые траектории, усиливая несогласованность между ракурсами и временной дрейф. Мы утверждаем, что генерация 360-градусного видео предлагает естественное решение: панорамный охват упрощает проектирование траекторий и обеспечивает сильный глобальный контекст для поддержания когерентности. Мы представляем Pantheon360: Укрощение генерации цифровых двойников с помощью 3D-осведомленной 360-градусной видеодиффузии — управляемый фреймворк генерации 360° видео, который синтезирует высококачественные видео на основе разреженных 360-градусных входных данных. Ключевая идея — явный 3D-кеш, реконструированный из входных данных, который служит геометрическим каркасом для любого заданного пользователем пути камеры. Это позволяет диффузионной модели сосредоточиться на фотореалистичном улучшении текстуры, в то время как 3D-кеш обеспечивает глобальную геометрическую согласованность. Эксперименты показывают, что Pantheon360 достигает превосходного визуального качества и непревзойденной геометрической согласованности, обеспечивая надежную и гибкую генерацию 360-градусных сцен для последующего моделирования и приложений цифровых двойников.

CUA-Gym: Масштабирование верифицируемых учебных сред и задач для агентов, использующих компьютер
CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

May 25

ByBowen Wang, Dunjie Lu, Junli Wang, Tianyi Bai, Shixuan Liu, Zhipeng Zhang, Haiquan Wang, Hao Hu, Tianbao Xie, Shuai Bai, Dayiheng Liu, Que Shen, Junyang Lin, Tao Yu

Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) привело к прорывам в таких областях, как математика, использование инструментов и разработка программного обеспечения, однако его расширение на агентов взаимодействия с компьютером (CUA) было затруднено нехваткой масштабируемых обучающих данных с детерминированными вознаграждениями. Создание таких данных для CUA требует согласованной инструкции задачи, исполняемой среды и проверяемого вознаграждения. Однако эталонные тесты, составленные вручную, обеспечивают высокую точность вознаграждений, но охватывают мало приложений, а наборы данных, основанные на оценке с помощью LLM, масштабируются широко, но не обладают надежной проверяемостью. Мы представляем CUA-Gym — масштабируемый конвейер, который совместно генерирует инструкции задач, состояния среды и функции вознаграждения. Конкретно, агент-генератор создает начальное и эталонное состояния среды, а отдельный агент-дискриминатор записывает функцию вознаграждения на основе спецификации задачи. Агент-оркестратор управляет ими в итеративных раундах после выполнения. Сгенерированные кортежи затем проходят финальный фильтр, объединяющий голосование большинством LLM и развертывания агентов, что обеспечивает качество, превосходящее поочередный состязательный цикл. Для решения проблемы нехватки обучающих сред мы дополнительно синтезируем CUA-Gym-Hub — широкий набор высокоточных имитационных веб-приложений, основанных на распределениях использования реального программного обеспечения, что позволяет на порядок увеличить масштаб данных RLVR для CUA. С помощью этого конвейера мы создаем CUA-Gym — набор данных из 32 112 проверенных обучающих кортежей RLVR, основанных на 110 средах. Обученные с использованием GSPO на CUA-Gym, наши модели CUA-Gym-A3B и CUA-Gym-A17B достигают 62,1% и 72,6% на OSWorld-Verified, превосходя предыдущие открытые CUA сопоставимых масштабов, при этом производительность плавно масштабируется как с объемом данных, так и с разнообразием сред. Те же контрольные точки также улучшают показатели на отложенном бенчмарке WebArena, что указывает на перенос обучения за пределы тренировочных сред. Мы откроем исходный код полного конвейера синтеза, набора данных, сред CUA-Gym-Hub и моделей.

ControlLight: К управляемому, согласованному и обобщаемому улучшению изображений в условиях низкой освещенности
ControlLight: Towards Controllable, Consistent, and Generalizable Low-Light Enhancement

May 25

ByYufeng Yang, Jianzhuang Liu, Jisheng Chu, Yuqi Peng, Xianfang Zeng, Jiancheng Huang, Shifeng Chen

Существующие методы улучшения изображений при низкой освещенности на основе глубокого обучения обычно обучаются на ограниченных наборах данных с единственной целью улучшения, что ограничивает их обобщающую способность и управляемость в реальных приложениях. Для преодоления этих ограничений мы предлагаем ControlLight — управляемую, согласованную и обобщающую структуру для улучшения изображений при низкой освещенности. Сначала мы создаем крупномасштабный набор данных реальных деградированных изображений с непрерывным контролем силы освещенности. Для обеспечения согласованности выходных результатов при различных уровнях управления мы вводим функцию потерь согласования весов с учетом несоосности, которая сохраняет структуру изображения при непрерывных изменениях силы улучшения. ControlLight позволяет пользователям редактировать реальные деградированные изображения при низкой освещенности, достигая удовлетворительных результатов путем гибкого управления силой улучшения, сохраняя при этом визуальную согласованность и реалистичность. Обширные эксперименты показывают, что ControlLight превосходит существующие методы улучшения при низкой освещенности, демонстрируя при этом высокую непрерывную управляемость и способность к обобщению на реальные сценарии.

Claw-Anything: бенчмаркинг постоянно активных персональных ассистентов с более широким доступом к цифровому миру пользователя
Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

May 25

ByYusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu

Агенты на основе больших языковых моделей всё чаще рассматриваются как постоянно активные персональные помощники, имеющие доступ ко всему, что имеет значение в цифровом мире пользователя. Однако современные системы работают лишь с узкими фрагментами этого мира, что ограничивает контекстно-зависимые рассуждения и эффективную помощь. Существующие бенчмарки также предоставляют лишь частичное состояние пользователя и поэтому не позволяют оценить производительность в таком широком, постоянно активном режиме. Для устранения этого пробела мы представляем Claw-Anything — бенчмарк, расширяющий контекст агента по трём измерениям: долгосрочные истории действий, взаимозависимые внутренние сервисы и интегрированное взаимодействие с графическим и командным интерфейсами на нескольких устройствах. Для реализации этой среды мы моделируем месяцы активности пользователя с помощью многораундовой инъекции событий, создавая сложные состояния мира и реалистичный шум, включая нерелевантные события и противоречивые сигналы. Агенты должны рассуждать в богатых контекстных средах, оставаясь устойчивыми к такому шуму. Этот расширенный масштаб также позволяет оценивать проактивную помощь, требующую от агентов предвидеть потребности пользователя и своевременно давать рекомендации. Эксперименты показывают, что GPT-5.5 достигает лишь 34,5% pass@1, что значительно ниже предыдущих бенчмарков, подчёркивая разрыв между текущими возможностями агентов и требованиями постоянно активной персональной помощи. Наряду с бенчмарком мы выпускаем автоматизированный конвейер генерации данных, который создаёт 2 000 обучающих сред и улучшает базовую модель на 23,7%, демонстрируя полезность масштабируемой инфраструктуры данных.

Предвидение и обучение: высвобождение простаивающих вычислительных ресурсов в проактивных агентах
Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents

May 25

ByHaoyi Hu, Qirong Lyu, Xianghan Kong, Weiwen Liu, Jianghao Lin, Zixuan Guo, Yan Xu, Yasheng Wang, Weinan Zhang, Yong Yu

Несмотря на то, что ИИ-агенты демонстрируют выдающиеся способности в рассуждении и использовании инструментов, они остаются в основе своей реактивными: они вычисляют ответы только после явного запроса пользователя. Такой подход упускает критическую возможность: время бездействия между взаимодействиями в значительной степени тратится впустую, оставляя агентов неспособными подготовиться к будущим потребностям пользователя. Чтобы устранить этот разрыв, мы представляем ProAct — архитектуру проактивного агента, которая использует вычисления в периоды простоя для прогнозирования и удовлетворения вероятных будущих потребностей пользователя. Анализируя развивающуюся историю диалога вместе с постоянной памятью, ProAct предсказывает предстоящие потребности и итеративно получает информацию, позволяя агенту устранять пробелы в знаниях и подготавливать доказательства до того, как пользователь инициирует запрос. Для строгой оценки проактивных способностей мы также представляем ProActEval — комплексный бенчмарк, состоящий из 200 сценариев в 40 доменах, с предсказуемыми цепочками потребностей и разнообразными когнитивными профилями пользователей. Эмпирические результаты демонстрируют значительные преимущества по сравнению с реактивными базовыми моделями. ProAct ускоряет выполнение задач, сокращая необходимое количество шагов на 14,8%, уменьшает усилия пользователя на 11,7% и снижает частоту галлюцинаций на 28,1% на ProActEval. Кроме того, оценки MemBench подтверждают, что ProAct достигает передовой точности рефлексии, подчеркивая его устойчивую и надежную производительность.

Состязательная дистилляция потоков на основе политики для авторегрессионной генерации видео
On-Policy Adversarial Flow Distillation for Autoregressive Video Generation

May 25

ByYang Luo, Shengju Qian, Xiaohang Tang, Zirui Zhu, Yong Liu, Xin Wang, Yang You

Авторегрессионные генераторы видео привлекательны для потоковых, долгосрочных и интерактивных приложений, однако дистилляция сильных учителей «чёрного ящика» в каузальных учеников остаётся сложной задачей. Ученик должен обучаться в условиях собственного распределения развёртывания, тогда как практические учителя могут предоставлять только завершённые видео, обусловленные промптом, и могут отличаться по архитектуре, ёмкости, временной организации и расписанию семплирования. Такой интерфейс делает контролируемую донастройку вне политики, дистилляцию на основе скора и прямую состязательную имитацию неприменимыми — последняя слишком разрежена для присвоения кредита на этапе шумоподавления. Мы предлагаем состязательную дистилляцию потоков (Adversarial Flow Distillation, AFD) — методологию «в политике» для гетерогенной дистилляции видео из чёрного ящика. AFD запрашивает учителя и развёртывает текущего ученика на тех же промптах, обучает дискриминатор Брэдли-Терри на парах промптов для оценки расхождения между учителем и учеником на чистых сэмплах и преобразует полученное преимущество «в политике» в обновления согласования потоков прямого процесса для зашумлённых состояний ученика. Таким образом, AFD обеспечивает плотное управление полем скорости, не требуя скоров учителя, латентных представлений, траекторий шумоподавления, выравнивания шагов или обучения с подкреплением на обратной цепи. Эксперименты на двух семействах каузальных AR-учеников показывают, что AFD последовательно улучшает генерацию, чувствительную к движению и физике, сохраняя общее качество видео, а абляционные исследования подтверждают важность адаптивной обратной связи «в политике» и присвоения кредита в прямом процессе. Метод требует только чистых видео учителя и развёртываний ученика, предоставляя практический путь для дистилляции проприетарных или гетерогенных генераторов видео в эффективные авторегрессионные ученики.

SkillEvolBench: Бенчмаркинг эволюции от эпизодического опыта к процедурным навыкам
SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills

May 22

ByYingtie Lei, Zhongwei Wan, Jiankun Zhang, Samiul Alam, Zixuan Zhong, Peizhou Huang, Xin Wang, Jingxuan Zhang, Donghao Zhou, Yunta Hsieh, Zhihao Dou, Hui Shen, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang

Агенты на основе больших языковых моделей (БЯМ) накапливают богатые эпизодические траектории при решении реальных задач, однако остаётся неясным, можно ли такой опыт дистиллировать в многократно используемые процедурные навыки. Мы представляем SkillEvolBench — диагностический бенчмарк для оценки этого этапа перехода от повторного использования опыта к формированию навыков. Он содержит 180 задач из шести реальных сред агентов, организованных в ролевые семейства задач с общими скрытыми процедурами. Агенты обучаются на задачах приобретения, обновляют внешнюю библиотеку навыков, используя сжатые траектории и обратную связь от верификатора, а затем сталкиваются с замороженными задачами развертывания, проверяющими сдвиг контекста, состязательные сокращения и композицию. Сравнивая само-сгенерированную и курированную начальную эволюцию навыков с контрольными условиями без навыков и с сырыми траекториями, SkillEvolBench отделяет процедурную абстракцию от базовой способности, курированных предварительных знаний и прямого использования эпизодических следов. На десяти конфигурациях моделей и трёх обвязках агентов мы обнаружили, что современные агенты часто адаптируются локально, но редко формируют надёжные многократно используемые навыки. Условия, основанные на навыках, могут улучшить приобретение или воспроизведение, а отдельные модели иногда выигрывают по конкретным осям развертывания, но эти выигрыши нестабильны при замороженном развертывании. Повторное использование сырых траекторий часто превосходит дистиллированные навыки, что позволяет предположить: текущие процедуры абстрагирования отбрасывают контекстные и процедурные подсказки, остающиеся полезными для будущих задач. Анализ ёмкости и стоимости дополнительно показывает, что запись большего числа навыков или более крупных библиотек ресурсов уровня Tier-3 недостаточна: дополнительные обновления могут улучшить покрытие, но при этом вносят эпизод-специфический дрейф и процедурный мусор. Эти выводы позиционируют SkillEvolBench как тестовую платформу для измерения того, когда одноразовый опыт становится прочным процедурным знанием, а не памятью, локальной для задачи.

Поканальное векторное квантование
Channel-wise Vector Quantization

May 25

ByWei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Ming Li, Jiaqi Wang, Kaicheng Yu

Мы представляем Channel-wise Vector Quantization (CVQ) — новую парадигму токенизации изображений, заменяющую по-патчевые токены на поканальные. В отличие от традиционного векторного квантования, которое присваивает дискретный токен каждому вектору признаков патча, CVQ квантует каждый канал карты признаков. Такая формулировка представляет изображение как дискретные уровни визуальных деталей, а не как сетку пространственных патчей. На основе CVQ мы представляем новую визуальную авторегрессионную структуру с «предсказанием следующего канала». Вместо рендеринга изображений патч за патчем в растровом порядке наша модель Channel-wise Autoregressive (CAR) предсказывает каналы изображения последовательно, создавая постепенно обогащаемые визуальные детали. В частности, она сначала набрасывает глобальную структуру, а затем уточняет мелкозернистые атрибуты, подобно работе художника. Эмпирически мы показываем, что: (1) CVQ достигает 100% использования кодовой книги при размере кодовой книги 16K+ без каких-либо дополнительных ухищрений и существенно улучшает качество реконструкции по сравнению с традиционным VQ; и (2) CAR достигает показателя DPG 86,7 и показателя GenEval 0,79, демонстрируя высокую эффективность для генерации текста в изображение.

MemForest: Эффективная система памяти агента с иерархическим временным индексированием
MemForest: An Efficient Agent Memory System with Hierarchical Temporal Indexing

May 16

ByHan Chen, Zining Zhang, Wenqi Pei, Bingsheng He, Ming Wu, Jason Zeng, Michael Heinrich, Wei Wu, Hongbao Zhang

Память является фундаментальным компонентом для обеспечения работы долгоконтекстных LLM-агентов, поддерживая устойчивое состояние при взаимодействиях через непрерывный жизненный цикл обслуживания и обновления. Несмотря на значительный объём предшествующих работ, существующие системы страдают от существенных накладных расходов на обслуживание из-за двух ключевых ограничений: крупнозернистого управления состоянием и по своей сути последовательных конвейеров обновления. В частности, обновления часто тесно связаны с логическим выводом LLM и требуют полной перезаписи состояния, что приводит к низкой масштабируемости и растущей задержке по мере накопления памяти. Для решения этих проблем мы представляем MemForest — фреймворк для работы с памятью, который переформулирует память агента как задачу управления темпоральными данными, эффективную по записи. MemForest устраняет последовательное узкое место с помощью параллельного извлечения фрагментов, разделяя построение памяти на параллельные независимые операции. Чтобы дополнительно устранить крупнозернистое обслуживание, мы вводим MemTree — иерархический темпоральный индекс, который организует память в виде деревьев, упорядоченных по времени, а не плоских глобальных сводок. Такая конструкция заменяет полные перезаписи состояния локализованными поузловыми обновлениями, снижая затраты на обслуживание до затрагиваемых путей в дереве, при этом естественным образом сохраняя темпорально изменяющиеся состояния. Мы оцениваем MemForest на двух долгоконтекстных бенчмарках памяти: LongMemEval-S и LoCoMo. На LongMemEval-S MemForest достигает наилучшей общей производительности среди baseline-решений с состоянием, достигая точности pass@1 в 79,8% при сохранении пропускной способности построения памяти примерно в 6 раз выше, чем у передовых подходов, включая EverMemOS.

Геометрически-осознанное потоковое сопоставление изображений
Geometry-Aware Image Flow Matching

May 24

ByJunho Lee, Kwanseok Kim, Joonseok Lee

Недавние достижения в области порождающих моделей подчеркивают эффективность моделирования с учетом геометрии в условиях, налагаемых ограничениями многообразий. Однако для естественных изображений данная область по-прежнему ограничивается евклидовыми предположениями, не используя потенциал внутренних геометрических структур данных. В данной работе мы исследуем геометрию естественных изображений и обнаруживаем, что семантическая информация преимущественно кодируется в компонентах направления, в то время как компоненты нормы могут быть аппроксимированы глобальным средним. Это свойство выполняется как в пространстве RGB, так и в латентных пространствах, что позволяет предположить, что естественные изображения могут быть эффективно смоделированы на гиперсфере. Основываясь на этом результате, мы представляем сферическое согласование потоков с оптимальным транспортом (SOT-CFM), использующее угловое расстояние, и сферическое согласование потоков (SFM), ограничивающее динамику непосредственно на многообразии. Наши эксперименты показывают, что эти методы, учитывающие геометрию, достигают превосходной производительности по сравнению с евклидовыми базовыми моделями. В конечном счете, данная работа предлагает новый взгляд, преодолевающий разрыв между моделированием на основе римановых многообразий и генерацией естественных изображений.

InstructSAM: сегментация любого экземпляра по любым инструкциям
InstructSAM: Segment Any Instance with Any Instructions

May 25

ByYuqian Yuan, Wentong Li, Zhaocheng Li, Yutong Lin, Juncheng Li, Siliang Tang, Jun Xiao, Yueting Zhuang, Wenqiao Zhang

В этой статье мы представляем InstructSAM — унифицированную и оптимизированную структуру, предназначенную для многоэкземплярной сегментации по произвольным инструкциям. Мы формулируем сегментацию экземпляров, управляемую инструкциями, как задачу предсказания запросов в виде структурированного множества и предлагаем явный интерфейс запросов от рассуждения к экземпляру, который элегантно связывает визуально-языковую модель (VLM) и SAM3. В частности, набор обучаемых запросов экземпляров встраивается в VLM и контекстуализируется с помощью инструкций и визуальной информации, что позволяет каждому запросу служить слотом, осведомленным об экземпляре. Механизм гибридного внимания дополнительно способствует взаимодействию между этими запросами, визуальными токенами и токенами инструкций, улучшая перечисление экземпляров и сокращая дублирующиеся предсказания. Полученные запросы, обусловленные LLM, проецируются в пространство запросов детектора SAM3, обеспечивая точную многоэкземплярную сегментацию за один прямой проход. Такая конструкция наделяет SAM3 пониманием инструкций высокого уровня, композиционным рассуждением и предсказанием множества на уровне экземпляров без изменения его базовой архитектуры. Для поддержки обучения и оценки мы дополнительно создали Inst2Seg — высококачественный и крупномасштабный набор данных и бенчмарк для сегментации экземпляров на основе инструкций, объединяющий инструкции в свободной форме с масками экземпляров. Обширные эксперименты показывают, что даже InstructSAM масштаба 2B достигает сильных результатов в сложных задачах сегментации по произвольным инструкциям и референсной сегментации на уровне фраз, превосходя предыдущие сквозные методы и агентный конвейер SAM3, одновременно обеспечивая эффективное предсказание множественных экземпляров за один проход.

Метрики верности не измеряют верность: мета-оценка с эталонными данными
Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth

May 24

ByYoav Gur-Arieh, Ana Marasović, Mor Geva

Цепочки рассуждений (CoT) стали центральным элементом интерпретации и аудита поведения больших языковых моделей. Однако растущее количество свидетельств указывает на то, что эти трассы часто неверно отражают вычисления, лежащие в основе предсказаний модели. Было предложено несколько метрик верности, но неизвестно, действительно ли они измеряют верность. Ответ на этот вопрос требует эталонных (ground-truth) меток, которые трудно получить, поскольку внутренние вычисления не поддаются прямому наблюдению. В результате большинство работ, предлагающих метрики, сообщают лишь абсолютные показатели или сравнения с предыдущими метриками, а немногие существующие бенчмарки полагаются на прокси-переменные, такие как правдоподобие или важность, — свойства, ортогональные верности, которые могут вводить в заблуждение относительно того, можно ли доверять CoT. Мы решаем эту задачу, конструируя задания, выходные данные которых раскрывают, какие промежуточные вычисления должны были их породить, и разрабатывая автоматизированный конвейер разметки, который даёт эталонные метки верности как на уровне шагов, так и на уровне цепочек CoT. Основываясь на этой методологии, мы представляем BonaFide — бенчмарк из 3066 размеченных CoT, охватывающий 13 заданий и 10 моделей, и используем его для первого систематического оценивания известных метрик верности. Наши эксперименты показывают, что большинство метрик работают на уровне случайного угадывания, демонстрируют сильные предсказательные смещения и ухудшают качество на более длинных CoT. Лучшая метрика достигает лишь 0,70 AUROC на уровне CoT, в то время как другая — 0,59 на уровне шагов, причём ни одна из них не переносится между сценариями, а также сопряжена с непомерно высокими вычислительными затратами. Наши результаты выявляют фундаментальные пробелы в современной оценке верности и призывают к разработке более надёжных и эффективных метрик.

Языковым моделям нужен сон
Language Models Need Sleep

May 25

BySangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

Трансформерные большие языковые модели всё чаще используются для задач с долгосрочным горизонтом; однако их механизм внимания плохо масштабируется с ростом длины контекста. Для решения этой проблемы мы исследуем механизм консолидации, напоминающий сон, в котором модель периодически преобразует недавний контекст в постоянные быстрые веса перед очисткой своего кэша ключ-значение. Во время сна модель выполняет N офлайн-рекуррентных проходов по накопленному контексту и обновляет быстрые веса в своих блоках модели пространства состояний (SSM) с помощью изученного локального правила. Во время вывода это переносит дополнительные вычисления на этап сна, сохраняя задержку предсказания в бодрствующем режиме. Мы тестируем наш метод на контролируемых синтетических задачах, включая клеточные автоматы и многопереходный поиск по графу, а также на реалистичной задаче математического рассуждения, на которых терпят неудачу как обычный трансформер, так и гибридные модели SSM-внимание. Затем мы показываем, что увеличение продолжительности сна N для наших моделей улучшает производительность, причем наибольший прирост наблюдается на примерах, требующих более глубокого рассуждения.

Helix4D: Генерация сложной 4D сетки
Helix4D: Complex 4D Mesh Generation

May 25

ByJiraphon Yenphraphai, Jianqi Chen, Jian Wang, Gordon Qian, Sergey Tulyakov, Rameen Abdal, Raymond A. Yeh, Peter Wonka, Chaoyang Wang

Современные методы преобразования видео в 4D сталкиваются с трудностями при обработке сложных топологических изменений, прозрачных материалов, тонких структур и внутренних поверхностей. Мы представляем Helix4D — фреймворк для генерации динамических сеток, наследующий выразительное представление Trellis2 и адаптирующий его от генерации изображение-в-3D к видео-обусловленной генерации 4D. Наша разработка основана на двух ключевых вопросах: (а) как обеспечить обмен информацией между кадрами в локальном внимании Trellis2, сохранив при этом его предобученное качество на редких случаях, таких как прозрачные объекты и внутренние поверхности, и (б) как внедрить временную информацию в чисто 3D-позиционное кодирование, не нарушая предобученных возможностей. Для решения (а) мы используем скользящее межкадровое внимание с привязкой к первому кадру. Первый кадр генерируется базовой моделью Trellis2 и подается в нашу модель, что позволяет ей наследовать качество Trellis2 на редких случаях через межкадровое внимание. Для решения (б) мы применяем 4D-временное кодирование, которое переназначает избыточные низкочастотные пространственные полосы RoPE на время, расширяя кодирование с 3D без добавления новых параметров. Обширные эксперименты демонстрируют эффективность Helix4D для высококачественной генерации динамических сеток на ActionBench и нашем собственном сложном наборе динамических сцен.

CRONOS: Оценка контрфактической физической согласованности в видеомоделях
CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models

May 22

ByLeón Begiristain, Olaf Dünkel, Adam Kortylewski

Прогнозирование видео всё чаще рассматривается как путь к обобщающим моделям мира, однако остаётся неясным, обучаются ли эти системы лежащей в основе причинно-следственной структуре или лишь эксплуатируют поверхностные визуальные корреляции для предсказания будущего. Мы представляем CRONOS — основанный на вмешательствах бенчмарк, предназначенный для оценки контрфактической физической согласованности: того, насколько адекватно предсказания модели физических событий реагируют на контролируемые изменения визуального входа, такие как вариации контекста сцены, точки обзора, внешнего вида объекта и категории объекта. Созданный в фотореалистичной среде Unreal Engine, CRONOS обеспечивает контролируемую высококачественную генерацию видео для разнообразных сцен и динамик. В отличие от предыдущих бенчмарков, CRONOS систематически воздействует на четыре ключевых фактора — точку обзора, сцену, категорию объекта и внешний вид объекта, — сохраняя фиксированным тип лежащего в основе физического события, такого как столкновение, окклюзия или падение. Наша оценка недавних открытых генераторов видео выявила существенные сбои в контрфактической физической согласованности: качество предсказания для одного и того же типа физического события зависит от внешнего вида, окружения и, особенно, от изменений точки обзора. CRONOS предоставляет контролируемый и воспроизводимый полигон для диагностики того, как качество генерируемых видео меняется при различных вмешательствах, устанавливая конкретную цель для разработки моделей, работающих согласованно при изменениях множества условий. Набор данных и код доступны на странице нашего проекта.

MetaphorVU: К метафорическому пониманию видео
MetaphorVU: Towards Metaphorical Video Understanding

May 25

ByZhuoqun Li, Boxi Cao, Guiping Jiang, Fangrui Lv, Ruotong Pan, Jianan Wang, Xiangyu Wu, Hongyu Lin, Yaojie Lu, Yong Du, Ruyin Jia, Liyan, Tingting Gao, Han Li, Xianpei Han, Le Sun

Метафорические видео широко распространены в различных реальных сценариях для передачи сложных идей, и их понимание обычно требует когнитивных способностей высокого уровня. Отсутствие систематических исследований в области понимания метафорических видео не только ограничивает применимость MLLM в реальных условиях, но и препятствует тщательной оценке их когнитивных способностей высокого уровня. Чтобы восполнить этот пробел, мы предлагаем MetaphorVU-Bench — первый систематический и всеобъемлющий бенчмарк, предназначенный для понимания метафорических видео. В ходе экспериментов мы обнаружили, что современные MLLM испытывают трудности с точным пониманием метафорических видео, значительно отставая от человеческого уровня, главным образом из-за несовершенного кросс-доменного отображения. Основываясь на этом выводе, мы построили граф знаний метафор в качестве дополнения к отображению и предлагаем MetaphorBoost — фреймворк улучшения на этапе инференса, обеспечивающий стабильное повышение производительности. Наш бенчмарк, анализ и метод предоставляют полезные идеи и основу для будущих исследований по развитию MLLM.

К кастомизированному мультимодальному ролевому взаимодействию
Towards Customized Multimodal Role-Play

May 1

ByChao Tang, Jianzong Wu, Qingyu Shi, Ye Tian, Aixi Zhang, Hao Jiang, Jiangning Zhang, Yunhai Tong

Модели унифицированного мультимодального понимания и генерации обеспечивают более богатое взаимодействие человека и ИИ. Однако совместная настройка личности персонажа, стиля диалога и визуальной идентичности при сохранении согласованности вывода между модальностями остается в значительной степени неисследованной. Чтобы восполнить этот пробел, мы представляем новую задачу — кастомизированную мультимодальную ролевую игру (Customized Multimodal Role-Play, CMRP). Мы создаем набор данных RoleScape-20, включающий 20 персонажей, а также данные для обучения и оценки, которые охватывают личность, стилистические описания, визуальные/экспрессивные сигналы и взаимодействие текста и изображений. Основываясь на унифицированной модели, мы разрабатываем UniCharacter — двухэтапную структуру обучения, содержащую унифицированную тонкую настройку с учителем (Unified Supervised Finetuning, Unified-SFT) и групповую оптимизацию относительной политики для конкретного персонажа (Character-specific Group Relative Policy Optimization, Character-GRPO). Имея всего 10 изображений и соответствующие примеры взаимодействия, модель усваивает целевого персонажа и демонстрирует согласованную личность, стиль и визуальную идентичность как в генерируемом тексте, так и в изображениях. Этот процесс занимает около 100 часов на GPU. Эксперименты на наборе данных RoleScape-20 показывают, что предложенный метод значительно превосходит предыдущие подходы. Абляционные исследования дополнительно подтверждают эффективность нашего дизайна кросс-модальной согласованности и стратегии кастомизации с несколькими примерами. Мы утверждаем, что CMRP в сочетании с унифицированным моделированием обеспечивает основу для создания следующих поколений выразительных и захватывающих интерактивных агентов.

Внедрение направляющего изображения в текстово-обусловленные диффузионные модели на этапе вывода
Injecting Image Guidance into Text-Conditioned Diffusion Models at Inference

May 24

ByAgata Żywot, Iason Skylitsis, Thijmen Nijdam, Zoe Tzifa-Kratira, Derck Prinzhorn, Konrad Szewczyk, Aritra Bhowmik

Диффузионные модели преобразования текста в изображение, такие как Stable Diffusion, генерируют высококачественные изображения на основе текста, однако не обладают возможностью внедрения визуального направления (например, эскизов, стилей) на этапе инференса без переобучения. Существующие методы либо требуют вычислительно затратной тонкой настройки, либо полагаются на техники переноса стиля, сопряженные с риском семантического несоответствия текстовым подсказкам. Мы представляем Слияние Визуальных Концепций (VCF) — первый метод, обеспечивающий двойное обуславливание как изображением, так и текстовой подсказкой на этапе инференса без какого-либо обучения на конкретных концепциях. VCF позволяет внедрять визуальные концепции в Stable Diffusion путем выравнивания признаков изображения из CLIP с пространством текстовых эмбеддингов. VCF состоит из трех компонентов: (1) легковесного выравнивателя, который отображает токены изображения на многообразие текстовых эмбеддингов с использованием потерь InfoNCE и реконструкции перекрестного внимания, (2) стратегии слияния, сохраняющей как текстовую, так и визуальную семантику, и (3) опционального модуля Оптимизации Шума Подсказки (PNO) для доработки во время тестирования. Наши эксперименты демонстрируют, что VCF успешно переносит визуальные атрибуты, включая стиль, композицию и цветовую палитру из референсных изображений, сохраняя при этом соответствие подсказке. Количественные результаты показывают компромисс между согласованием с текстом (оценка CLIP) и визуальным соответствием (LPIPS), при этом VCF превосходит базовые методы по точности соответствия референсу.

Окрашивание шума: Состязательное выравнивание по Соболеву для верного сверхразрешения изображений
Coloring the Noise: Adversarial Sobolev Alignment for Faithful Image Super Resolution

May 22

ByHongbo Wang, Huaibo Huang, Pin Wang, Jinhua Hao, Chao Zhou, Ran He

Генеративные априорные знания в задаче сверхвысокого разрешения изображений (СВР) часто ставят под угрозу точное восстановление; мы объясняем это ограничение фундаментальным спектральным несоответствием между изотропными целевыми функциями и внутренним многообразием натуральных изображений. Хотя прямая оптимизация предпочтений предлагает путь к согласованию, ее опора на спектрально плоский гауссовский шум не позволяет отличить подлинные высокочастотные детали от галлюцинаций. Для преодоления этого геометрического разрыва мы предлагаем ASASR — теоретически обоснованную структуру, которая переосмысливает генеративный поток в рамках римановой геометрии, индуцированной пространством Соболева, путем явной окраски ядра перехода шума для отражения естественного спектрального затухания. Для реализации этого геометрического согласования мы интегрируем параметрического противника, основанного на теореме Рисса о представлении, который синтезирует целенаправленные отрицательные образцы, эквивалентные градиентам Соболева в наихудшем случае, чтобы направить оптимизацию вдоль касательного пространства возможных структурных ошибок. Обширные оценки показывают, что ASASR превосходит ведущие генеративные базовые модели, особенно в сохранении спектральной согласованности и структурной точности, предлагая надежное решение, которое эффективно уменьшает артефакты.

SEAL: Синергетическая коэволюция агентов и обучающих сред
SEAL: Synergistic Co-Evolution of Agents and Learning Environments

May 23

ByYihao Hu, Zhihao Wen, Xiujin Liu, Pan Wang, Xin Zhang, Wei Wu

Агенты на основе больших языковых моделей (БЯМ) всё чаще совершенствуются за счёт взаимодействия, однако большинство методов самоэволюции адаптируют либо политику, либо среду обучения по отдельности. Мы выявляем этот структурный пробел как рассогласование агента и среды: граница возможностей агента изменяется в ходе обучения, в то время как среда, обеспечивающая контроль, остаётся статичной или лишь слабо связана с выявленными ошибками агента. Мы предлагаем SEAL — замкнутую рамочную структуру совместной эволюции для интерактивных агентов, использующих инструменты. SEAL собирает траектории, следующие текущей политике, в условиях исполнимой верификации, диагностирует неудачные прогоны, присваивая маркеры ошибок на уровне хода, и использует эти диагнозы как общий сигнал как для адаптации со стороны среды, так и для оптимизации политики со стороны модели. Среда эволюционирует, модифицируя свой интерфейс обучения во время тренировки за счёт более чётких подсказок о возможностях инструментов, информации об ограничениях и обратной связи, ориентированной на восстановление, в то время как политика обновляется с помощью перевзвешивания преимуществ на основе диагностики. Обширные эксперименты в рамках многократных оценок использования инструментов как внутри распределения, так и вне его показывают, что SEAL улучшает обучение агента с малым количеством ресурсов: при использовании всего 400 обучающих примеров он обеспечивает прирост среднего балла от +8,25 до +26,25 по трём базовым моделям и демонстрирует положительный перенос на данные вне распределения. Эти результаты подтверждают ценность совместной адаптации обучаемого и его обучающей среды во время тренировки для создания устойчиво самосовершенствующихся агентов на основе БЯМ.

CoSPlay: Кооперативная самоигра во время тестирования с самогенерируемым кодом и модульными тестами
CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test

May 22

ByZhangyi Hu, Chenhui Liu, Tian Huang, Jindong Li, Yang Yang, Jiemin Wu, Zining Zhong, Menglin Yang, Yutao Yue

Недавно обучение с подкреплением с верифицируемыми наградами (RLVR) и масштабирование во время тестирования (TTS) продвинули генерацию кода большими языковыми моделями с помощью исполняемой верификации. Однако эталонные модульные тесты (GT UT) остаются узким местом: современные методы RLVR требуют их для дорогостоящего обучения, в то время как существующие методы TTS теряют конкурентоспособность без них. Это мотивирует развитие подхода GT-free TTS, где существующие методы напрямую используют самостоятельно сгенерированные UT для уточнения и отбора кандидатов кода. Однако такие UT часто зашумлены или ложно связаны с неправильным кодом, а качество UT, в свою очередь, невозможно проверить без надежного кода. Таким образом, ключевая задача — совместно улучшить и то, и другое. Для этого мы представляем CoSPlay — фреймворк без использования GT и без обучения, который совместно улучшает код и UT с помощью кооперативной самоигры. Он сначала исследует разнообразные идеи решений и выявляет их потенциальные режимы отказа для генерации дискриминационных идей UT. Затем он использует двунаправленные сигналы количества прохождений из матрицы выполнения код-UT для итеративного удаления или исправления слабого кода, а также обновления или замены ненадежных UT, позволяя двум пулам совместно эволюционировать. Наконец, когда несколько кодов остаются связанными по наивысшему количеству прохождений, финальный код выбирается из наибольшего кластера с консенсусом по выходным данным, поскольку правильные коды согласуются на одних и тех же входных данных, а неправильные расходятся. Эксперименты на четырех сложных бенчмарках показывают, что CoSPlay на Qwen2.5-7B-Instruct улучшает средний BoN с 22,1% до 33,2% и точность UT с 14,6% до 78,3%, достигая или превосходя модель RLVR CURE-7B. При применении к CURE-7B он дополнительно улучшает BoN на 5,7%. CoSPlay также обобщается на различные базовые архитектуры и превосходит базовые методы GT-free TTS при сопоставимых бюджетах токенов, с дальнейшим ростом при увеличении бюджета. Эти результаты указывают на масштабируемую стратегию инференса для конкурентоспособной генерации кода без каких-либо данных GT.

Усиление генераторов с малым числом шагов посредством согласования распределений со смещением по вознаграждению
Reinforcing Few-step Generators via Reward-Tilted Distribution Matching

May 25

ByYushi Huang, Xiangxin Zhou, Ruoyu Wang, Chi Zhang, Jun Zhang, Tianyu Pang

Недавние достижения в области многократной дистилляции диффузии позволили эффективно генерировать изображения, однако согласование этих моделей с человеческими предпочтениями остается сложной задачей. Мы предлагаем Reward-Tilted Distribution Matching Distillation (RTDMD) — двухэтапную структуру, объединяющую дистилляцию распределения с подкрепляющим обучением, направленным на вознаграждение, для генераторов с малым числом шагов. Мы показываем, что минимизация расхождения Кульбака–Лейблера до учительского распределения, смещенного в сторону вознаграждения, естественным образом распадается на член согласования распределения и член максимизации вознаграждения. На первом этапе мы вводим Ambient-Consistent Distribution Matching Distillation (AC-DMD), которая выполняет согласование распределения по подынтервалам и дополняет целевую функцию ложных оценок регуляризатором согласованности, помогающим модели ложных оценок отслеживать изменяющееся распределение генератора при ограниченных обновлениях. На втором этапе мы совместно оптимизируем оба члена: для члена максимизации вознаграждения мы выводим гибридный градиент политики, сочетающий оценщик типа GRPO для стохастических промежуточных переходов с прямым обратным распространением вознаграждения через детерминированный финальный шаг, а также вводим GRPO по подмножествам шагов (SubGRPO) для уменьшения дисперсии. Эксперименты на SD3, SD3.5 и FLUX.2 показывают, что RTDMD устанавливает новые современные результаты по метрикам предпочтений, эстетики и композиции, используя всего 4 шага вывода, превосходя предыдущие методы генерации текста в изображение с малым числом шагов. Код и модели доступны по адресу https://github.com/Harahan/RTDMD.

Как далеко они зайдут? Тестирование онлайн-влияния методом красной команды с использованием больших языковых моделей
How Far Will They Go? Red-Teaming Online Influence with Large Language Models

May 20

ByDaniel C. Ruiz, Anna Serbina, Ashwin Rao, Emilio Ferrara, Luca Luceri

Поскольку агенты на основе больших языковых моделей (БЯМ) всё активнее участвуют в онлайн-дискурсе, тестирование их способности поддерживать кампании политического влияния методом «красной команды» имеет решающее значение для сохранения информационной целостности. Для достижения этой цели мы фокусируемся на локально развёртываемых open-source БЯМ, а не на передовых моделях, доступных только через API, учитывая их более высокую согласованность с операционными ограничениями злоумышленников, заботящихся о конфиденциальности и действующих в среде социальных медиа. Мы представляем эмпирическую структуру тестирования методом «красной команды» для измерения окон Овертона (ОО) БЯМ, определяемых как диапазон политических мнений, который модель может надёжно выражать по спорным темам, и для количественной оценки того, как простые джейлбрейки на естественном языке расширяют этот диапазон. Мы оценили более 30 БЯМ из 10 семей моделей и пяти стран происхождения. Обнаружены систематические асимметрии в политической выразительности: open-source БЯМ, как правило, более склонны генерировать политически левый контент в социальных медиа; окна Овертона имеют тенденцию сужаться обратно пропорционально размеру модели; а региональные различия значительны, несмотря на неравномерную представленность в экосистеме open-source. Эффективность джейлбрейков также резко различается между семействами моделей, что мотивирует разработку методики для выявления эффективных комбинаций техник джейлбрейка. В совокупности наши результаты создают практическую основу для аудита политической управляемости open-source БЯМ и помогают будущим исследователям разрабатывать более действенные контрмеры против кампаний влияния, реализуемых с помощью БЯМ.

Направленное согласование смягчает взлом вознаграждения в обучении с подкреплением для языковых моделей
Directional Alignment Mitigates Reward Hacking in Reinforcement Learning for Language Models

May 24

ByWenlong Deng, Jiaji Huang, Kaan Ozkara, Yushu Li, Christos Thrampoulidis, Xiaoxiao Li, Youngsuk Park

Взлом награды возникает, когда модель улучшает прокси-награду за счет использования кратких путей, а не решения поставленной задачи. Мы изучаем этот режим отказа через геометрию обновлений алгоритма обучения с подкреплением в языковых моделях и утверждаем, что взлом награды происходит, когда оптимизация отклоняется от стабильной низкоразмерной траектории обучения. Этот дрейф анализируется через доминирующие сингулярные направления обновлений параметров, и мы показываем, что в сценариях с взломом награды наблюдается существенно большее направленное изменение, чем в чистых прогонах. Руководствуясь этим наблюдением, мы вводим проекцию доверенного направления, которая ограничивает градиенты, удерживая их в пределах чистого опорного подпространства. В экспериментах по взлому награды на задачах математического рассуждения предложенный подход задерживает эксплуатацию кратких путей и лучше сохраняет производительность задачи.

SemBridge: Языковой перенос в разреженных энкодерах с помощью многоязычных семантических мостов
SemBridge: Language Transfer in Sparse Encoders via Multilingual Semantic Bridges

May 25

BySeongtae Hong, Youngjoon Jang, Jia-Heui Ju, Hyeonseok Moon, Heuiseok Lim

Разреженные кодировщики обеспечивают высокоточный поиск, представляя важность терминов в пространстве словаря, однако их англоцентричные структуры создают критическое препятствие для переноса языковых моделей на неанглийские языки. Чтобы преодолеть это структурное ограничение, мы предлагаем SemBridge — новый метод инициализации эмбеддингов, предназначенный для кросс-языковой адаптации разреженных кодировщиков с использованием многоязычных мостовых моделей. SemBridge устанавливает семантические соответствия между исходным и целевым словарями, применяя многоязычные плотные эмбеддинги в качестве моста. Вместо прямой зависимости от всех исходных токенов, SemBridge выбирает небольшое множество семантически связанных токенов исходного языка и использует их для инициализации каждого токена целевого языка, эффективно отфильтровывая семантический шум и реконструируя целевые токены как точные линейные комбинации ключевых синонимов. Это ускоряет сходимость при дообучении и повышает эффективность обучения. Обширные эксперименты с пятью языками и четырьмя разреженными архитектурами показывают, что SemBridge достигает превосходной производительности при нулевом поиске и стабильно улучшает результаты поиска после дообучения по сравнению с существующими базовыми методами. Эти результаты подтверждают, что SemBridge является практичным решением для развертывания высокопроизводительных систем разреженного поиска в разнообразных языковых средах.

SimuWoB: Симуляция реальных мобильных приложений для быстрого и достоверного бенчмаркинга агентов GUI
SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking

May 24

ByGuohong Liu, Jialei Ye, Pengzhi Gao, Wei Liu, Jian Luan, Yunxin Liu, Yuanchun Li

Агенты мобильного графического интерфейса, основанные на больших языковых моделях, быстро прогрессируют, что создает острую необходимость в реалистичной и всесторонней оценке. Существующие бенчмарки отдают приоритет воспроизводимости, но часто ограничиваются приложениями с открытым исходным кодом или задачами по работе с файлами из-за сложности построения вознаграждений в реальных приложениях, оставляя разрыв между условиями бенчмарков и реальным использованием. Более того, большинство бенчмарков сосредоточены на базовом заземлении и навигации, с ограниченным охватом сложных долгосрочных взаимодействий. Чтобы устранить эти ограничения, мы представляем SimuWoB — полностью синтетический бенчмарк для агентов мобильного графического интерфейса, содержащий 120 сложных задач различных типов и уровней сложности. Мы создаем надежную среду генерации виртуальной среды, которая синтезирует задачи и среды с высокой точностью, а также автоматически предоставляет действительные вознаграждения для каждой задачи. Каждая среда развертывается как веб-страница без бэкенда, доступная по URL-адресу, что обеспечивает эффективную и воспроизводимую оценку. Мы проводим всесторонние эксперименты на нескольких передовых агентах мобильного графического интерфейса. Средний уровень успешности составляет всего 27,92%, снижаясь до 17,82% на долгосрочных задачах, что выявляет существенные слабости современных агентов в сложных сценариях. Сравнение результатов оценки с образцами реальных задач показывает, что оценки агентов, основанные на нашей синтетической среде, хорошо обобщаются. Кроме того, мы предоставляем диагностические идеи по ключевым размерностям возможностей и обсуждаем последствия для будущей разработки агентов мобильного графического интерфейса.

Представление вместо маршрутизации: Преодоление суррогатного взлома в многошкальном PPO
Representation over Routing: Overcoming Surrogate Hacking in Multi-Timescale PPO

May 21

ByJing Sun

Временное распределение кредитов в обучении с подкреплением долгое время остаётся ключевой проблемой. Вдохновлённое многомасштабным кодированием дофаминовой системы в нейробиологии, недавние исследования предприняли попытку ввести несколько коэффициентов дисконтирования в архитектуры актора-критика, такие как проксимальная оптимизация политики (PPO), для балансирования краткосрочных реакций и долгосрочного планирования. Однако в данной статье показывается, что слепое слияние многомасштабных сигналов в сложных задачах с отложенным вознаграждением может приводить к серьёзным алгоритмическим патологиям. Мы систематически демонстрируем, что подвергание механизма временной маршрутизации внимания градиентам политики ведёт к взлому суррогатной целевой функции, в то время как использование безградиентного взвешивания неопределённости вызывает необратимую миопическую дегенерацию — явление, которое мы называем парадоксом временной неопределённости. Для решения этих проблем мы предлагаем архитектуру развязывания целей: на стороне критика мы сохраняем многомасштабные предсказания для обеспечения вспомогательного обучения представлениям, тогда как на стороне актора мы строго изолируем краткосрочные сигналы и обновляем политику исключительно на основе долгосрочных преимуществ. Строгие эмпирические оценки на множестве независимых случайных инициализаций в среде LunarLander-v2 показывают, что предложенная архитектура достигает статистически значимого улучшения производительности. Не прибегая к манипуляции гиперпараметрами, она устойчиво превосходит порог «Среда решена» с минимальной дисперсией, полностью устраняет коллапс политики и выходит из зависания в локальных оптимумах, которые свойственны базовым методам с одним масштабом времени. Исходный код для воспроизведения наших экспериментов открыто доступен по адресу https://github.com/ben-dlwlrma/Representation-Over-Routing.

Разделение коммуникации и политики: робастный MARL при ограничениях пропускной способности
Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

May 20

ByAlexi Canesse, Benoît Goupil, Jesse Read, Sonia Vanier

Коммуникация обеспечивает координацию в мультиагентном обучении с подкреплением (MARL), однако многие прикладные задачи, например, поисково-спасательные операции с роями дронов, работают в условиях жестких ограничений пропускной способности. Многие коммуникационные архитектуры по-прежнему имеют сопряженное узкое место, при котором общее скрытое представление используется как для выполнения политики, так и для меж агентной коммуникации. Следовательно, уменьшение размера сообщения напрямую ограничивает скрытое пространство политики, что часто приводит к значительному снижению производительности. Мы решаем эту проблему с помощью двух вкладов. Во-первых, мы вводим β — нормированный бюджет пропускной способности на агента, который объединяет разреженность, количество раундов и размерность сообщений в единое сопоставимое ограничение. Во-вторых, мы предлагаем SLIM — минимальную архитектуру, которая разделяет коммуникационный канал и скрытое представление политики, позволяя изолировать влияние пропускной способности от влияния емкости политики, сохраняя при этом преимущества синхронной коммуникации. Мы оцениваем наш метод на нескольких эталонных задачах MARL с частичной наблюдаемостью, где коммуникация необходима. Наш подход достигает производительности на уровне современных методов и демонстрирует масштабируемость и устойчивость в условиях ограниченной коммуникации, с лишь незначительным ухудшением при снижении пропускной способности.

На пути к инженерии оценивания: эмпирическое исследование инструментов оценки машинного обучения в реальных условиях
Towards Evaluation Engineering: An Empirical Study of ML Evaluation Harnesses in the Wild

May 22

ByZhimin Zhao, Zehao Wang, Abdul Ali Bangash, Bram Adams, Ahmed E. Hassan

Оценочные обвязки (evaluation harnesses) представляют собой программные системы, которые координируют процесс оценки моделей, управляя их вызовом, загрузкой данных, вычислением метрик и формированием отчётов о результатах. Несмотря на их критическую роль в инфраструктуре машинного обучения, эксплуатационные трудности и инженерные аспекты, связанные с ними, до сих пор получали ограниченное внимание. Мы представляем эмпирическое исследование 57 оценочных обвязок, в ходе которого была разработана пятиэтапная модель обвязки и проведена классификация 16 560 проблем по этапам рабочего процесса и первопричинам. Большинство эксплуатационных трудностей сосредоточено на этапе спецификации (41,4% проблем), где обвязки интегрируют внешние модели, наборы данных и оценочные судьи. Три наиболее частые первопричины эксплуатационных трудностей — нереализованные функции (24,3%), пробелы в документации (20,3%) и отсутствие валидации входных данных (17,2%) — в совокупности составляют 61,7% классифицированных проблем, охватывая как дефекты существующей функциональности, так и пробелы в возможностях, блокирующие запланированные рабочие процессы. Первопричины также различаются в зависимости от этапа рабочего процесса: несовместимость окружения и нарушение внешних зависимостей составляют 36,2% проблем обеспечения, тогда как на этапе оценки доминируют алгоритмическая ошибка (25,9%) и пробел в валидации (22,5%). В совокупности эти результаты создают эмпирическую основу для рассмотрения инженерии оценки как отдельного направления программной инженерии.

ECHO: Терминальные агенты бесплатно изучают мировые модели
ECHO: Terminal Agents Learn World Models for Free

May 23

ByVaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, Dimitris Papailiopoulos

CLI-агенты — это ближайшее, что есть у языковых моделей к воплощённой среде: модель генерирует команды, терминал их выполняет, а возвращаемый поток — stdout, ошибки, файлы, логи и трассы — фиксирует последствия. Мы утверждаем, что этот поток является сигналом супервизии, но стандартный RL для агентов отбрасывает его: обучение в стиле GRPO обновляет токены действий с редкими наградами на уровне результата, игнорируя ответы среды, уже присутствующие в развёртке. Неудачные развёртки дают слабый сигнал градиента политики, несмотря на то, что содержат богатые данные о том, как среда реагирует. Мы представляем ECHO (Environment Cross-entropy Hybrid Objective — гибридная цель на основе кросс-энтропии среды), гибридную функцию потерь, которая объединяет стандартную потерю градиента политики по токенам действий с вспомогательной потерей, обучающей политику предсказывать токены наблюдений среды, возникающие в результате её собственных действий. ECHO использует тот же прямой проход, что и GRPO, не требует дополнительных развёрток и превращает обратную связь от терминала в плотный сигнал супервизии для всех развёрток. ECHO удваивает показатель pass@1 по сравнению с GRPO на TerminalBench-2.0: Qwen3-8B улучшается с 2,70% до 5,17%, а Qwen3-14B — с 5,17% до 10,79%. ECHO также даёт политики, которые лучше предсказывают динамику терминала, даже на траекториях, которые они не генерировали: на отложенных развёртках он резко снижает кросс-энтропию токенов среды, в то время как один GRPO почти не меняет её. Начиная с базовой Qwen3-8B, ECHO достигает производительности, эквивалентной комбинации эксперт-SFT с последующим GRPO, на отложенных терминальных задачах без экспертных демонстраций и восстанавливает примерно половину преимущества инициализации эксперт-SFT на TerminalBench-2.0. В некоторых настройках одна лишь потеря предсказания среды обеспечивает самосовершенствование без верификатора, позволяя политикам улучшаться на невидимых ранее задачах OOD, обучаясь только на взаимодействиях со средой. В совокупности эти результаты показывают, что наблюдения среды — это не просто контекст для будущих действий, а плотный сигнал супервизии, основанный на текущей политике, который уже присутствует в каждой развёртке.

Расширение доступа к данным о безопасности дорожного движения с помощью генеративного ИИ: схемно-ориентированный фреймворк для пространственных запросов на естественном языке
Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

May 20

ByMahdi Azhdari, Eric J. Gonzales

Анализ безопасности дорожного движения требует интеграции данных о ДТП, характеристик дорожной сети и геопространственных данных с помощью ГИС-ориентированных рабочих процессов, однако доступ к таким данным остается неравномерным среди различных агентств и заинтересованных сторон сообщества. Технические требования создают разрыв между аналитическими инструментами, необходимыми для планирования безопасности, и практикующими специалистами, способными их использовать. Местные органы власти, школьные комитеты и жители могут испытывать озабоченность по вопросам безопасности, но обладают ограниченными возможностями для извлечения, фильтрации, картографирования и анализа соответствующих данных. Генеративный искусственный интеллект предлагает способ сократить этот разрыв, однако его использование в государственном секторе вызывает вопросы о надежности, воспроизводимости и управлении. В данной статье представлен основанный на схеме естественно-языковой интерфейс для анализа безопасности дорожного движения, использующий большую языковую модель (LLM) для интерпретации намерений пользователя при сохранении детерминированного, проверяемого исполнения запросов к авторитетной базе данных. Пользовательские запросы переводятся в структурированные семантические фреймы, проверяемые правилами на основе эвристического слоя, компилируются в типизированный направленный ациклический граф пространственных операций и выполняются в базе данных PostGIS. Такая ограниченная архитектура разделяет интерпретацию языка и детерминированное выполнение, обеспечивая воспроизводимость результатов и привязку к схеме, одновременно устраняя барьеры доступа. Предложенная структура оценивается с использованием общегосударственной базы данных по безопасности дорожного движения Массачусетса, объединяющей записи о ДТП, характеристики дорожной сети и геопространственные слои, включая школы, автобусные остановки, пешеходные переходы и муниципальные границы. Все запросы были успешно выполнены; слой валидации исправляет ошибки в 29% тестовых запросов, что отражает разрыв между гибким естественным языком и строгими требованиями, основанными на схеме. Полученные результаты свидетельствуют о том, что сочетание доступности естественного языка с детерминированным выполнением является практическим направлением для расширения доступа к данным о безопасности дорожного движения, что имеет значение для создания надежного ИИ в государственном планировании.

HorizonStream: Долгосрочное внимание для потоковой 3D-реконструкции
HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction

May 22

ByChong Cheng, Peilin Tao, Nanjie Yao, Guanzhi Ding, Xianda Chen, Yuansen Du, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Zhengqing Chen, Hao Wang

Онлайн-реконструкция 3D требует оценки позы камеры и геометрии сцены в условиях строгих каузальных ограничений и ограниченной памяти. Существующие методы часто страдают от дрейфа, дрожания или коллапса на длинных последовательностях. Мы связываем эти сбои с фундаментальным несоответствием. Потоковая геометрия по своей сути является временно неоднородной, при этом свидетельства варьируются от кратковременных соответствий до устойчивого глобального масштаба. Однако современные архитектуры навязывают однородные и патологические шаблоны влияния. Например, скользящие окна устанавливают жесткие границы отсечения, в то время как негейтированная рекуррентность и каузальное внимание приводят к насыщению кэша и всплескам внимания типа «раковин». Для решения этой проблемы мы формализуем геометрическое распространение как ядро влияния свидетельств и предлагаем HorizonStream — долгосрочный трансформер, явно факторизующий это ядро. Для долгосрочного временного фактора Геометрическое Линейное Внимание изучает поканальные скорости затухания, обеспечивая ограниченное распространение геометрических свидетельств на множественных временных масштабах. Для краткосрочного пространственного фактора Геометрическое Локальное Внимание с пространственно-временным RoPE выполняет надежное 3D-сопоставление, подавляя при этом «раковины» внимания. Наконец, Метрические Считывающие Токены восстанавливают стабильный масштаб и жесткую позу непосредственно из устойчивого геометрического состояния. Обширные эксперименты показывают, что HorizonStream, обученный только на клипах из 48 кадров, стабильно обобщается на последовательности, превышающие 10 000 кадров, с постоянной памятью и линейным временем, достигая передовой производительности потоковой 3D-реконструкции. Страница проекта: https://3dagentworld.github.io/horizonstream/

RankJudge: многораундовый генератор синтетических бенчмарков на основе LLM в роли судьи
RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

May 20

ByZhenwei Tang, Zhaoyan Liu, Rasa Hosseinzadeh, Tongzi Wu, Keyvan Golestan, Jesse C. Cresswell

По мере создания и совершенствования интерактивных приложений на основе LLM разработчикам моделей необходимо оценивать качество сгенерированного текста по множеству возможных критериев. Для более простых систем человеческая оценка может быть практичной, но в сложных системах, таких как диалоговые чат-боты, объем сгенерированного текста может перегружать ресурсы человеческой аннотации. Разработчики моделей начали в значительной степени полагаться на автоматическую оценку, где LLM также используются для оценки качества генерации. Однако существующие бенчмарки LLM-в-роли-судьи в основном сосредоточены на простых задачах вопрос-ответ, которые не соответствуют сложности многоходовых диалогов. Мы представляем RankJudge — генератор бенчмарков для оценки LLM-в-роли-судьи на многоходовых диалогах, основанных на референтных документах. RankJudge создает пары диалогов, в которых один диалог содержит одиночный дефект, внедренный в один ход. Такая конструкция позволяет однозначно помечать пары диалогов как лучший или худший, а также точно изолирует категории ошибок по отдельным ходам, что позволяет установить строгий совместный критерий корректности для оценки. Мы реализуем RankJudge в областях машинного обучения, биомедицины и финансов, оцениваем 21 передового LLM-судью и ранжируем этих судей с помощью модели Брэдли-Терри. Наша формулировка также позволяет ранжировать каждую пару диалогов с оценками сложности, которые мы используем для динамического формирования оценочного среза с целью уменьшения шума в разметке, что подтверждено человеческой аннотацией. Мы обнаруживаем, что ранжирования судей стабильны при частичной наблюдаемости, более грубых критериях корректности и альтернативном алгоритме оценки на основе случайного блуждания.

MotiMotion: Управляемая движением генерация видео с визуальным рассуждением
MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

May 21

ByLee Hsin-Ying, Hanwen Jiang, Yiqun Mei, Jing Shi, Ming-Hsuan Yang, Zhixin Shu

Современные модели генерации видео из изображений, управляемые движением, жестко следуют предоставленным пользователем траекториям, которые часто являются разреженными, неточными и причинно неполными. Такая зависимость часто приводит к неестественным или неправдоподобным результатам, особенно из-за упущения вторичных причинных последствий. Для решения этой проблемы мы представляем MotiMotion — новую структуру, которая переформулирует управление движением как задачу рассуждения с последующей генерацией. Чтобы стимулировать причинно обоснованные и соответствующие здравому смыслу взаимодействия, мы используем не требующий обучения визуально-языковой рассуждатель для уточнения координат первичных траекторий в пространстве изображения и для галлюцинирования правдоподобных вторичных движений. Для дальнейшего улучшения естественности движений мы предлагаем схему управления, учитывающую уверенность, которая модулирует силу направляющего воздействия, позволяя модели точно следовать планам с высокой уверенностью, при этом исправляя артефакты при входах с низкой уверенностью с помощью своих внутренних генеративных априорных данных. Для поддержки систематической оценки мы создаем новый бенчмарк генерации видео из изображений, MotiBench, состоящий из сцен, ориентированных на взаимодействие, где новые события инициируются движением. Как оценка на основе VLM, так и исследование с участием людей на MotiBench показывают, что MotiMotion создает видео с более правдоподобным поведением объектов и взаимодействием, и предпочитается по сравнению с существующими подходами.

Оценка дефектов дорожного покрытия на уровне пикселей с использованием сегментации экземпляров
Pixel-Level Pavement Distress Assessment Using Instance Segmentation

May 25

ByLogan Dewick, Bibesh Pyakurel, Kong Pheng Yang, Nazim Choudhury, M. G. Sarwar Murshed

Автоматизированная оценка повреждений дорожного покрытия требует не просто классификации на уровне изображений или грубого обнаружения ограничивающих рамок, а точной локализации тонких, разветвлённых и нерегулярных трещин для достижения геометрической точности, необходимой для количественной оценки, значимой для технического обслуживания. В данной статье представлена система анализа повреждений дорожного покрытия на основе компьютерного зрения, использующая сегментацию экземпляров Mask R-CNN, и проведена её оценка на наборе данных UWGB-StreetCrack — специально собранном с помощью автомобильного смартфона наборе изображений дорожного полотна, вручную размеченном полигональными метками для продольных трещин, поперечных трещин, трещин типа «аллигаторова кожа» и выбоин. В рамках единого протокола тонкой настройки было рассмотрено пять вариантов архитектуры Mask R-CNN на основе Detectron2. Лучшая модель — Mask R-CNN с магистральной сетью ResNet-101 FPN — достигла точности 84,23%, полноты 90,04% и F1-меры 87,04% при использовании проектно-специфичного протокола сопоставления ограничивающих рамок. Эта же модель дала совокупную прогнозируемую долю площади трещин 2,164%, что очень близко к истинной доле площади трещин в 2,170%. Для контекстуализации системы сегментации относительно альтернативы, ориентированной на детекцию, детектор YOLO на основе CSPDarknet53 был также адаптирован и заново обучен на наборе данных, достигнув точности 27,5% и полноты 20,7% по протоколу валидации. Результаты показывают, что сегментация экземпляров является практичным направлением для полевых изображений дорожного покрытия и агрегированной оценки площади трещин, одновременно выявляя открытые проблемы, связанные с согласованностью разметки, дисбалансом классов, подавлением confounding-факторов и бенчмаркингом на уровне масок.

ClaimDiff-RL: Мелкозернистое обучение с подкреплением для генерации подписей на основе сравнения визуальных утверждений
ClaimDiff-RL: Fine-Grained Caption Reinforcement Learning through Visual Claim Comparison

May 24

ByTianle Li, Xuyang Shen, Yan Ma, Rongxin Guo, Shaoxiang Chen, Jiacheng Chen, Haochen Wang, Hongyang Tang, Yucong Zhou, Yu Cheng

Длинные подписи к изображениям выявляют проблему гранулярности вознаграждения в обучении с подкреплением (RL): подписи оцениваются как целые последовательности, в то время как важные ошибки происходят на уровне отдельных визуальных утверждений. Хорошая плотная подпись должна быть одновременно точной и информативной, избегая галлюцинаций без пропуска важных деталей. Однако попарные предпочтения, метрики на основе эталонов и целостные скалярные вознаграждения сжимают эти локальные ошибки в единый сигнал на уровне последовательности, скрывая компромисс между фактологичностью и полнотой. Мы представляем ClaimDiff-RL — фреймворк, который использует обусловленные эталоном атомарные различия утверждений в качестве единицы вознаграждения для RL подписей. Для заданного изображения, подписи актора и эталонной подписи мультимодальный оценщик перечисляет визуально обоснованные различия, проверяет каждое различие на соответствие изображению, назначает типы ошибок с открытым словарём и уровни серьёзности, а также вычисляет статистику по каждому различию для компоновки вознаграждения. Это позволяет отдельно измерять и настраивать галлюцинированные утверждения и пропущенные важные факты. Эксперименты показывают, что целостные скалярные вознаграждения могут уменьшить галлюцинации за счёт увеличения пропущенных фактов, в то время как ClaimDiff-RL выявляет этот компромисс между точностью и полнотой и позволяет достичь более сбалансированных рабочих точек. На человечески размеченном диагностическом бенчмарке из 160 изображений, общедоступных бенчмарках подписей и бенчмарках VQA ClaimDiff-RL улучшает баланс между галлюцинациями и пропущенными фактами, сохраняет общую производительность и даже превосходит Gemini-3-Pro-Preview по нескольким тонким измерениям способностей (Capability), таким как подсчёт объектов, пространственные отношения и распознавание сцен. Эти результаты свидетельствуют о том, что типизированные, проверяемые различия утверждений являются эффективной единицей вознаграждения для точной и диагностируемой RL подписей.

Декодирование механизма критики в больших моделях рассуждений
Decoding the Critique Mechanism in Large Reasoning Models

May 22

ByHoang Phan, Quang H. Nguyen, Hung T. Q. Le, Xiusi Chen, Heng Ji, Khoa D. Doan

Большие модели рассуждений (Large Reasoning Models, LRMs) демонстрируют механизмы возврата (backtracking) и самопроверки, позволяющие им пересматривать промежуточные шаги и приходить к правильным решениям, что обеспечивает высокую производительность на сложных логических бенчмарках. Мы предполагаем, что такое поведение полезно только в том случае, если модель обладает достаточно сильной способностью к «критике» для обнаружения собственных ошибок. В данной работе мы систематически исследуем, как современные LRM восстанавливаются после ошибок, внося арифметические ошибки в их промежуточные шаги рассуждений. Примечательно, что мы обнаружили своеобразный, но важный феномен: несмотря на распространение ошибки по всей цепочке рассуждений (Chain-of-Thought, CoT) без какой-либо вербализованной коррекции, модель всё же приходит к правильному окончательному ответу после завершения процесса мышления. Это восстановление подразумевает существование внутреннего механизма, помогающего модели обнаруживать ошибки и запускать самокоррекцию, который мы называем скрытой способностью к критике (hidden critique ability). Основываясь на анализе пространства признаков, мы идентифицируем хорошо интерпретируемый вектор критики, представляющий это поведение. Обширные эксперименты на моделях различных масштабов и семейств демонстрируют, что управление латентными представлениями с помощью этого вектора улучшает способность модели к обнаружению ошибок и повышает производительность масштабирования во время тестирования (test-time scaling) без дополнительных затрат на обучение. Наши результаты дают ценное понимание критического поведения LRM, указывая на перспективное направление для контроля и улучшения их механизма самопроверки. Наш код доступен по адресу: https://github.com/mail-research/lrm-critique-vectors.

Увидеть иголку в стоге сена: к слабо контролируемой локализации аномалий в экземплярах логов с помощью контрфактического возмущения
Seeing the Needle in the Haystack: Towards Weakly-Supervised Log Instance Anomaly Localization via Counterfactual Perturbation

May 9

ByYutszyuk Wong, Wentai Wu, Yuen-Ying Yeung, Weiwei Lin

Обнаружение аномалий в журналах является критически важной задачей для эксплуатации систем и обеспечения безопасности. Однако в крупномасштабных сетевых системах данные журналов генерируются в огромных объемах, в то время как аннотации на уровне экземпляров имеют запретительно высокую стоимость, что создает значительные трудности для точной локализации аномалий. Для решения этой проблемы мы предлагаем LogMILP (Локализация аномалий в журналах на основе множественного обучения с экземплярами, усиленного прототипами и возмущениями) — слабо контролируемую структуру, которая позволяет одновременно обнаруживать аномалии на уровне пакетов и локализовать аномалии на уровне экземпляров, используя только метки на уровне пакетов. Наш метод направляет модель на выявление критических записей журнала с помощью прототипно-ориентированного структурного моделирования с регуляризацией согласованности контрфактических возмущений, тем самым повышая надежность и интерпретируемость локализации при грубозернистом контроле. Экспериментальные результаты на трех общедоступных наборах данных показывают, что LogMILP достигает конкурентоспособной производительности обнаружения, обеспечивая при этом значительно более надежную локализацию на уровне экземпляров. Наш код находится в открытом доступе по адресу https://github.com/YUK1207/LogMILP.