HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

43 papers found

JoyAI-VL-Interaction: Интеллект визуально-языкового взаимодействия в реальном времени
JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence

Jun 10

ByDingyu Yao, Junhao Zhou, Chenxu Yang, Chuanyu Qin, Haowen Hou, Zheming Liang, Congcong Wang, Yuhang Cao, Shenglong Ye, Shuai Xie, Shuhuan Gu, Haoyang Huang, Qingyi Si, Nan Duan, Jiaqi Wang

171

Многие события в реальном мире не ждут, пока пользователь задаст вопрос. Пожар начинается на мониторе системы безопасности, выражение лица мелькает во время видеозвонка, или товар, который хочет зритель, быстро проходит в прямом эфире. Однако сегодняшние большие модели по своей архитектуре остаются в основном пошаговыми: они отвечают только тогда, когда к ним обращаются, и даже приложения для видеозвонков, которые кажутся интерактивными, по-прежнему работают как системы вопросов и ответов, реагируя только при опросе или запросе. Мы предлагаем иную парадигму: модель, которая присутствует в мире как человек. Она непрерывно наблюдает за происходящим сейчас, самостоятельно решает, говорить или молчать, взаимодействует в реальном времени и делегирует задачу фоновой модели, когда проблема сложна. Чтобы продвинуть модели взаимодействия и их внедрение в различных областях, мы вносим два полностью открытых вклада. Во-первых, мы выпускаем JoyAI-VL-Interaction — модель VL-взаимодействия масштаба 8B, ориентированную в первую очередь на зрение. Модель принимает решение об ответе внутренне, выбирая каждую секунду: молчать, ответить или делегировать фоновой модели. Она превосходно справляется с реактивностью, запускаемой зрением, и осознанием времени. Мы дополняем её переносимой методикой обучения, из которой возникают способности, которым мы никогда не учили модель, например, направлять покупателя через смену экранов приложения или импровизировать лекцию по набору слайдов. Во-вторых, мы выпускаем полную, развертываемую систему, построенную вокруг этой модели. Система передает любое текущее видео на вход модели, делая её по-настоящему присутствующей в мире. Все остальные компоненты являются подключаемыми, включая модули ASR/TTS, память, пользовательский интерфейс визуализации и фоновый мозг, который может подключаться к любому API или агенту. В шести реальных сценариях человеческие рецензенты значительно предпочитают JoyAI-VL-Interaction по сравнению с внутриприложенными помощниками видеозвонков от Doubao и Gemini. Насколько нам известно, это первая открытая модель взаимодействия, управляемая зрением, выпущенная вместе с методикой обучения, данными и полной развертываемой системой.

Агент дата-журналистики: Преобразование данных в проверяемые мультимодальные истории
Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

Jun 9

ByKevin Qinghong Lin, Batu EI, Yuhong Shi, Pan Lu, Philip Torr, James Zou

110

Данные рассказывают истории, формирующие общество; задача журналиста данных — превращать сырую информацию в истории, которым могут доверять неспециалисты. Создание качественного новостного материала занимает у редакционной команды недели: поиск контекста, проведение статистического анализа, выбор угла подачи и разработка визуализаций. Современные агенты хорошо справляются с отдельными этапами: агенты в области науки о данных замыкают цикл анализа, а агенты дизайна синтезируют красивые веб-сайты. Но может ли агент выступать в роли журналиста данных от начала до конца? Мы представляем Агента журналистики данных (Data2Story) — мультиагентный фреймворк, который координирует специализированные роли в единой виртуальной редакции. Data2Story предлагает два новшества. (i) Утверждения обоснованы доказательствами: Инспектор связывает каждое число, угол подачи и актив с данными, кодом или внешним источником. (ii) Статьи мультимодально генерируются: вместо того чтобы по умолчанию использовать простой текст и статические графики, Data2Story рассуждает о том, что читатели захотят увидеть, а затем применяет мультимодальные инструменты, такие как интерактивные карты для географии и аудио для музыки. Мы оцениваем Data2Story на 18 статьях, каждая из которых сопоставлена с изначально опубликованной экспертной работой, по четырём направлениям: (a) охват углов подачи человеком и агентом; (b) оценка по рубрикам с 53 участниками по пяти измерениям; (c) агенты, имитирующие поведение пользователей, в качестве судей — экономичная замена реальному взаимодействию читателей с интерактивными статьями; и (d) проверяемость, где проверяющий код повторно выполняет утверждения на основе данных и сверяет утверждения с источниками. Data2Story создаёт конкурентоспособные, поддающиеся проверке доказательств мультимедийные истории, с особым преимуществом в прозрачности и возможности аудита. Человеческие статьи сохраняют преимущество в редакторском угле, креативном дизайне и презентации. Мы позиционируем Data2Story как инструмент сотрудничества для журналистов, обеспечивающий более обоснованную с точки зрения доказательств, прозрачную и проверяемую отчётность. Код и демонстрации доступны по адресу https://data2story.github.io.

Геометрическая модель действий для обучения политике робота
Geometric Action Model for Robot Policy Learning

Jun 15

ByJisang Han, Seonghu Jeon, Jaewoo Jung, René Zurbrügg, Honggyu An, Tifanny Portela, Marco Hutter, Marc Pollefeys, Seungryong Kim, Sunghwan Hong

101

Общие политики роботов должны следовать инструкциям пользователя, рассуждая о том, как объекты, камеры и действия робота взаимодействуют в трёхмерном физическом мире. Современные модели «видение-язык-действие» (VLA) и видеомодели «мир-действие» (WAM) наследуют сильные семантические или временные априорные знания от крупномасштабных фундаментальных моделей, но по-прежнему работают преимущественно с двумерными кадрами или латентными пространствами, полученными из 2D, оставляя неявной трёхмерную геометрию, необходимую для манипуляций, требующих контакта. Мы предлагаем модель геометрических действий (GAM) — обусловленную языком политику манипуляций, которая напрямую использует предобученную фундаментальную геометрическую модель (GFM) в качестве общей основы для восприятия, временного предсказания и декодирования действий. GAM разделяет GFM на промежуточном слое: мелкие слои служат кодировщиком наблюдений, а вставленный на месте разделения каузальный предсказатель будущего прогнозирует будущие латентные токены, обусловленные языком, проприоцепцией и историей действий. Затем предсказанные будущие токены передаются через оставшиеся блоки GFM для распространения признаков и декодирования, что позволяет единому бэкбону генерировать как будущую геометрию, так и действия. Такая конструкция наделяет GFM обусловленным языком временным моделированием мира при минимальных архитектурных модификациях, сохраняя при этом богатые геометрические априорные знания. В широком наборе экспериментов по манипуляциям в симуляции и на реальных роботах GAM превосходит современные базовые модели масштаба фундаментальных моделей по точности, устойчивости, скорости и лёгкости.

DreamX-World 1.0: Интерактивная модель мира общего назначения
DreamX-World 1.0: A General-Purpose Interactive World Model

Jun 15

ByDreamX Team, Yancheng Bai, Rui Chen, Xiangxiang Chu, Rujing Dang, Hao Dou, Bingjie Gao, Qiwen Gu, Siyu Hong, Jiachen Lei, Geng Li, Jifan Li, Ruimin Lin, Qingfeng Shi, Bingze Song, Lei Sun, Jing Tang, Ruitian Tian, Jun Wang, Jiahong Wu, Pengfei Zhang, Shen Zhang, Jiashu Zhu

DreamX-World 1.0 представляет собой универсальную интерактивную модель мира для преобразования текста/изображения в видео, предназначенную для управляемой генерации с длительным временным горизонтом. Она поддерживает навигацию камеры, повторное обращение к ранее наблюдаемым областям и управляемые события в фотореалистичных, игровых и стилизованных доменах. Наш механизм обработки данных объединяет рендеринг в Unreal Engine с точной привязкой к камере, записи игрового процесса с богатым набором действий и реальные видеоролики с восстановленной геометрией камеры. Для управления камерой мы вводим E-PRoPE — облегченный вариант проективного позиционного кодирования, который сохраняет проективную геометрию камеры PRoPE, применяя при этом камерно-зависимое внимание к пространственно сокращенным токенам. Мы преобразуем двунаправленный генератор видео в авторегрессионную модель мира с несколькими шагами, используя каузальное форсирование, дистилляцию в стиле DMD и обучение на длинных развертках. Обучение на самостоятельно сгенерированных длинных контекстах подвергает модель воздействию ее собственной сгенерированной истории и уменьшает дрейф стиля и цвета, накапливающийся в авторегрессионных фрагментах. Механизм сохранения сцены с привязкой к памяти извлекает более ранние виды с помощью поиска на основе геометрии камеры, в то время как рециклинг остатков делает путь обусловливания менее чувствительным к несовершенным латентным представлениям памяти. Настройка инструкций событий добавляет компонуемое управление событиями, а выравнивание с помощью обучения с подкреплением восстанавливает управление камерой и визуальное качество после дистилляции. Благодаря выполнению DiT со смешанной точностью, повторному использованию остатков, декодированию VAE с 75%-ным прореживанием и асинхронному конвейерному параллелизму DreamX-World 1.0 достигает скорости до 16 кадров в секунду на восьми графических процессорах RTX 5090. В нашей базовой оценке на 5 секунд DreamX-World 1.0 получает оценку управления камерой 73,75 и общую оценку 84,76, превосходя HY-WorldPlay 1.5 и LingBot-World по общей оценке, которые достигают 80,79 и 80,45 соответственно.

VibeThinker-3B: Исследование границ верифицируемого рассуждения в малых языковых моделях
VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Jun 15

BySen Xu, Shixi Liu, Wei Wang, Jixin Min, Yingwei Dai, Zhibin Yin, Yirong Chen, Xin Zhou, Junlin Zhang

本技术报告介绍了VibeThinker-3B——一个拥有30亿参数的紧凑型稠密模型，旨在探索在严格的小模型规模下，可验证推理能力能推进到何种程度。基于频谱到信号后训练范式，我们通过优化流程系统性提升模型，该流程包括基于课程学习的监督微调、多领域强化学习以及离线自蒸馏。实验评估表明，VibeThinker-3B在高度严苛的可验证任务上达到了前沿水平。具体而言，它在AIME26上获得94.3分（通过声明级测试时缩放提升至97.1），在LiveCodeBench v6上达到80.2的Pass@1，并在近期未见过的LeetCode竞赛中展现出强大的分布外泛化能力，接受率达到96.1%。这使其有效跻身一流推理系统的性能区间，与规模大数个数量级的旗舰模型（如DeepSeek V3.2、GLM-5和Gemini 3 Pro）相匹敌或更优。此外，IFEval上的93.4分证实，这种极端的推理增强并未损害严格的指令可控性。基于我们之前1.5B模型的研究工作，这些发现推动了参数压缩-覆盖假说的提出，该假说将可验证推理视为可压缩为紧凑推理核心的行为，而开放域知识与通用能力则需要对事实、概念和长尾场景进行广泛的参数覆盖。这一视角表明，紧凑模型不仅是部署效率更高的替代品，更是通向参数稠密能力体系下前沿性能的一条互补路径。

FastContext: Обучение эффективного исследователя репозитория для агентов кодирования
FastContext: Training Efficient Repository Explorer for Coding Agents

Jun 12

ByShaoqiu Zhang, Maoquan Wang, Yuling Shi, Yuhang Wang, Xiaodong Gu, Yongqiang Yao, Rao Fu, Shengyu Fu

Большие языковые модели (БЯМ) для агентов кодирования достигли высоких результатов в задачах программной инженерии, однако исследование репозитория остаётся основным узким местом: поиск релевантного кода потребляет значительный бюджет токенов и засоряет контекст агента посторонними фрагментами. В большинстве агентов одна и та же модель исследует репозиторий и решает задачу, оставляя следы исследовательских чтений и поисков в истории решателя. Мы представляем FastContext — специализированный под-агент исследования, который разделяет этапы исследования репозитория и решения задачи. Вызываемый по требованию, FastContext выполняет параллельные вызовы инструментов и возвращает краткие пути файлов и диапазоны строк в качестве сфокусированного контекста. FastContext работает на основе специализированных моделей исследования с параметрами от 4B до 30B. Мы загружаем их с помощью траекторий эталонной модели и уточняем с помощью вознаграждений, привязанных к задаче, для широкого поиска на первом шаге, многошагового сбора доказательств и точной генерации цитирований. На наборах данных SWE-bench Multilingual, SWE-bench Pro и SWE-QA интеграция FastContext в Mini-SWE-Agent повышает сквозные показатели решения до 5,5% при снижении потребления токенов агентом кодирования до 60% с минимальными накладными расходами. Эти результаты показывают, что исследование репозитория может быть отделено от решения и эффективно обрабатываться специализированными моделями. Код и данные: https://github.com/microsoft/fastcontext

Линг и Ринг 2.6 Технический отчет: Эффективный и мгновенный агентный интеллект в масштабе триллиона параметров
Ling and Ring 2.6 Technical Report: Efficient and Instant Agentic Intelligence at Trillion-Parameter Scale

Jun 13

ByAng Li, Ben Liu, Bin Han, Bin Hu, Bin Jing, Binbin Hu, Bing Li, Cai Chen, Caizhi Tang, Changxin Tian, Chao Huang, Chao Zhang, Chen Liang, Chen Qian, Chengfu Tang, Chengyao Wen, Chilin Fu, Chunwei Wu, Cong Zhang, Cunyin Peng, Daixin Wang, Dalong Zhang, Deng Zhao, Dingnan Jin, Dingyuan Zhu, Donghao Zhang, Fan Yuan, Fangzheng Zhao, Fanzhuang Meng, Feifan Wu, Feng Xu, Fengbin Fang, Gangshan Wang, Guodong Yang, Hailin Zhao, Haitao Wang, Haitao Zhang, Hanxiao Zhang, Hanzi Wang, Hao Dai, Hao Liu, Hao Qian, Hao Wu, Haoxiong Liu, Haoyu Xu, Heng Zhang, Hong Liu, Hongliang Zhang, Hongrui Liu, Hongxun Li, Hongzhi Ruan, Huaidong Xiong, Huihuang Zheng, Huikang Tang, Jia Guo, Jia Li, Jia Liu, Jiameng Wang, Jiaming Liu, Jiannan Shi, Jianping Wei, Jiaolong Yang, Jiapeng Wang, Jie Gao, Jie Wang, Jiewei Wu, Jin Yang, Jinjin Li, Jinjing Huang, Jinquan Sun, Jinyao Chen, Juanhui Tu, Jun Liu, Jun Mei, Jun Xu, Jun Zhou, Junjie Ou, Junnan Sipan, Junpeng Fang, Kaihong Zhang, Kaiqin Hu, Ke Shi, Kuan Xu, Kun Tang, Kunlong Chen, Lanyin Mei, Lei Chen, Lei Liang, Lei Xu, Li Tang, Liang Jiang, Liangcheng Fu, Lihui Zhang, Linfeng Shi, Lintao Ma, Liyuan Liu, Longfei Li, Longfei Zheng, Lu Liu, Lu Yu, Man Li, Meiqi Zhu, Meng Li, Mengjie Gao, Mengshu Sun, Mingming Yin, Mingyang Zhang, Mingyuan Fan, Nuo Xu, Pan Tang, Peijie Jiang, Peilong Zhao, Peng Lin, Pingping Liu, Qi Zuo, Qian Zhao, Qiang Cheng, Qianggang Cao, Qiaoben Bao, Qing Cui, Qingyuan Yang, Qitao Shi, Qiyin Huang, Qizheng Zhou, Quan Wan, Runyuan Zhao, Shaomian Zheng, Shaowei Wei, Shengnan Zhang, Shuaicheng Li, Shujie Li, Shuo Zhang, Sikang Bian, Tianchu Yao, Tiange Xu, Tianshu Wang, Ting Guo, Tinghao Wang, Tingwei Huang, Tong Zhao, Tongkai Yang, Wang Hong, Wanli Gu, Wei Lu, Weichang Wu, Weiguang Han, Weiquan Li, Wenbo Shen, Wenjing Fang, Wenzhi Tang, Xiang Shu, Xiao Shi, Xiaodong Yan, Xiaolu Zhang, Xiaopei Wan, Xiaqing Sun, Xin Zhao, Xingyu Lu, Xinxing Yang, Xinyao Tang, Xinyu Kong, Xinyu Liu, Xiong Xu, Xuan Sun, Xudong Han, Xudong Wang, Xujie Shen, Yalin Zhang, Yangyang Hou, Yankun Ren, Yao Zhao, Ye Chen, Yeyang Chen, Yibo Cao, Yifan Zuo, Yijie Chen, Ying Li, Yingjie Song, Yingxue Li, Yiqi Wang, Yixuan Sun, Yizhu Xiao, Yongfei Xu, Yu Liu, Yuchen Fang, Yue Gao, Yue Yu, Yue Zhang, Yuqi Zhang, Yuxiao He, Yuxiao Lu, Yuxin Tian, Yuxuan Li, Yuzhuo Fu, Zhankai Xu, Zhaoxin Huan, Zhenduo Zhang, Zhengke Gui, Zhengyu Huang, Zhenjun Ma, Zhenxuan Pan, Zheping Qu, Zhibo Zhu, Zhidong Fan, Zhigang Huangfu, Zhihao Wang, Zhiqiang Zhang, Zhizhen Liu, Zhuyan Zhou, Zibin Lin, Zihang Zeng, Zihao Wang, Zilong Wang, Ziqi Liu, Zitao Xuan, Zixuan Cheng, Zujie Wen, Zuoli Tang

Эффективный и масштабируемый агентный интеллект требует моделей, способных обеспечивать как низкую задержку ответа, так и высокие способности к рассуждению, оставаясь при этом практичными в обучении, развертывании и эксплуатации. В данном отчете мы представляем Ling-2.6 и Ring-2.6 — семейство моделей, разработанных для решения этой задачи в масштабе. Ling-2.6 оптимизирована для мгновенной генерации ответов и высокой производительности на единицу выходного токена, тогда как Ring-2.6 ориентирована на более глубокие рассуждения и более продвинутые агентные сценарии. Вместо обучения с нуля мы модернизируем базовую модель Ling-2.0 путем миграционного пре-тренинга архитектуры и крупномасштабного пост-тренинга. Эта модернизация осуществляется на основе единого совместного проектирования архитектуры модели, целей оптимизации, систем обслуживания и сред обучения агентов, что позволяет добиться улучшений как в производительности модели, так и в эффективности развертывания. На архитектурном уровне мы внедряем гибридный дизайн линейного внимания, объединяющий Lightning Attention и MLA, что повышает эффективность обучения и декодирования в условиях длинного контекста. Для дальнейшего повышения токенной эффективности мы оптимизируем производительность на единицу выходного токена с помощью эволюционной цепочки рассуждений, оптимизации политики языковых единиц, двунаправленного выравнивания предпочтений и дистилляции кратчайших корректных ответов. Для агентных способностей мы предлагаем KPop — фреймворк обучения с подкреплением, предназначенный для обеспечения стабильного обучения Ring-2.6-1T на крупномасштабных данных, основанных на взаимодействии со средой. KPop повышает эффективность обучения за счет асинхронного планирования задач кодирования, поиска, использования инструментов и выполнения рабочих процессов, что обеспечивает масштабируемое обучение на основе сложных взаимодействий агента со средой. Вместе Ling-2.6 и Ring-2.6 предоставляют практический путь к эффективным, масштабируемым и открытым агентным системам. Мы публикуем в открытом доступе все контрольные точки семейства 2.6, чтобы поддержать дальнейшие исследования и разработки в области практического агентного интеллекта.

Кто должен возглавить декодирование сейчас? Отслеживание надежных траекторий для ансамблирования маскированных диффузионных языковых моделей
Who Should Lead Decoding Now? Tracking Reliable Trajectories for Ensembling Masked Diffusion Language Models

Jun 15

ByHeecheol Yun, Joonhyung Park, Joowon Kim, Eunho Yang

Маскированные диффузионные языковые модели (MDLM) стали отдельной парадигмой для генерации последовательностей. По мере того как MDLM становятся разнообразными по своим возможностям и охвату знаний, возникает важный вопрос: как объединить их знания. Для этого мы сначала исследуем уникальную динамику декодирования MDLM. Мы обнаруживаем, что успешные генерации демонстрируют стабильную динамику уверенности на позициях, релевантных ответу, в то время как ненадёжные траектории часто можно скорректировать, внедряя многообещающие промежуточные состояния из других моделей. Руководствуясь этим наблюдением, мы предлагаем TIE (Trajectory-based Iterative Ensembling — итеративное ансамблирование на основе траекторий) — фреймворк для слияния знаний, в котором MDLM итеративно определяют надёжные траектории декодирования и передают их между моделями. TIE отслеживает динамику уверенности на релевантных ответу позициях, чтобы определить, какая модель в данный момент следует более надёжной траектории, и выборочно передаёт частично очищенные от шума последовательности между моделями. Поскольку модель на более многообещающей траектории часто меняется на разных шагах шумоподавления, TIE позволяет разным моделям вносить взаимодополняющие сильные стороны на различных этапах генерации. Высокая производительность на разнообразных задачах рассуждения в сочетании с нашим анализом указывает на то, что TIE предлагает практический подход к недостаточно изученной проблеме ансамблирования MDLM.

BRDFusion: Физика встречается с генерацией для обратного рендеринга городских сцен
BRDFusion: Physics Meets Generation for Urban Scene Inverse Rendering

Jun 15

ByYi-Ruei Liu, Jie-Ying Lee, Zheng-Hui Huang, Yu-Lun Liu, Chih-Hao Lin

Обратный рендеринг городских сцен из захваченных видео открывает множество применений, включая создание контента и симуляцию автономного вождения. Методы, основанные на физически корректном рендеринге, следуют законам физики освещения и управляют ими, однако страдают от артефактов при реконструкции и рендеринге. В то время как генеративные модели создают реалистичные видео, они обеспечивают ограниченную согласованность и управляемость. Мы представляем BRDFusion — единую структуру, объединяющую две взаимодополняющие модели для обратного и прямого рендеринга. В частности, BRDFusion восстанавливает явные, согласованные свойства сцены с помощью физического моделирования и уменьшает неоднозначность оптимизации за счет порождающих априорных распределений. При прямом рендеринге физическая модель обеспечивает управляемый рендеринг на основе конфигурации сцены, а генеративная модель подавляет шум и исправляет артефакты. Таким образом, наш метод создает высококачественные видео, обеспечивая при этом точный контроль, превосходя базовые подходы как на реальных, так и на синтетических сценах. Кроме того, BRDFusion поддерживает переосвещение с новых ракурсов, симуляцию ночного освещения, а также вставку и редактирование динамических объектов. Страница проекта: https://shigon255.github.io/brdfusion-page/

VisualClaw: агент реального времени, персонализированный для физического мира
VisualClaw: A Real-Time, Personalized Agent for the Physical World

Jun 15

ByHaoqin Tu, Jianwen Chen, Zijun Wang, Siwei Han, Juncheng Wu, Hardy Chen, Haonian Ji, Kaiwen Xiong, Jiaqi Liu, Peng Xia, Jieru Mei, Hongliang Fei, Jason Eshraghian, Zeyu Zheng, Yuyin Zhou, Huaxiu Yao, Cihang Xie

Модели зрения-языка (VLM) служат интерфейсами общего назначения для сложных мультимодальных задач. Однако их развертывание по-прежнему сталкивается с тремя пробелами: VLM, как правило, имеют высокую задержку и стоимость при обработке плотных видеокадров и длинных запросов; агентный каркас остается статичным после развертывания; стандартные бенчмарки видео-QA не проверяют, способны ли агенты использовать визуальные свидетельства внутри рабочих пространств с инструментами. Мы представляем VisualClaw — саморазвивающийся мультимодальный агент, построенный на двух принципах. Во-первых, гибридное кодирование снижает стоимость развертывания за счет фильтрации менее информативных потоковых кадров с помощью каскадного затвора и сжатия банка текстовых навыков через горячее/холодное top-k внедрение. Во-вторых, эволюция навыков позволяет агенту учиться на ошибках: извлеченные воспоминания подают эволюционирующему компоненту либо как прямой конкатенированный контекст, либо как направленное свидетельство, что приводит к обновлениям банка навыков, помогающим будущим вопросам. На 4 бенчмарках видео-QA с 2 VLM VisualClaw сокращает стоимость API на один вопрос в среднем на -98% по сравнению с загрузкой полного кадра и на -25,9% по сравнению с офлайн-равномерным базовым потоком из 8 кадров, одновременно повышая точность в большинстве конфигураций, например, среднее +3,85% и пиковое +15,80% на EgoSchema с Gemini 3 Flash. Для устранения указанного пробела мы подготовили VisualClawArena — мультимодальный агентный бенчмарк из 200 сценариев, построенный через строгий пятиэтапный конвейер; модели должны использовать видеосвидетельства, документы, динамические обновления и выполнимые проверки в рабочей области. На VisualClawArena та же структура с бэкендами агентов для работы с компьютером улучшает макроточность на +2,9% для Codex (GPT-5.5) и на +3,2% для Claude Code (Sonnet 4.6) по сравнению с базовыми версиями без эволюции, при снижении стоимости на -9,5% по сравнению с равномерно сэмплированным базовым вариантом. Эти свойства делают VisualClaw естественным выбором для приложений на границе сети, где каскад сокращает 1-часовую потоковую сессию с ~3 600 API-вызовов до всего 5–20 обращений, а самоэволюция превращает его в идеального персонализированного ассистента.

Технический отчет Qwen-RobotWorld: Объединение воплощенного моделирования мира с помощью генерации видео по языковым условиям
Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Jun 15

ByJie Zhang, Xiaoyue Chen, Anzhe Chen, Chenxu Lv, Deqing Li, Gengze Zhou, Hang Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zhixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Xiong-Hui Chen, Chenfei Wu

Мы представляем Qwen-RobotWorld — языкообусловленную видеомодель мира для воплощённого интеллекта. Используя естественный язык в качестве унифицированного интерфейса действий, модель предсказывает физически обоснованные будущие визуальные траектории на основе текущих наблюдений в таких задачах, как роботизированная манипуляция, автономное вождение, навигация в помещении и перенос навыков от человека к роботу. Такая единая формулировка открывает три перспективных направления применения: генерация синтетических данных для дополнения обучения политик, масштабируемые виртуальные среды для оценки политик и сигналы планирования на основе естественного языка для последующего управления роботом. Это достигается за счёт трёхкомпонентной архитектуры: а) Двухпоточный MMDiT с кодированием действий MLLM — 60-слойный двухпоточный диффузионный трансформер, связывающий замороженные семантики Qwen2.5-VL с латентными представлениями видео-VAE через послойное совместное внимание; б) Воплощённое мировое знание (EWK) — корпус видеотекстов объёмом 8,6 млн (более 200 млн кадров) с отображением действий и языка для более чем 20 воплощений и 500+ категорий действий; в) Прогрессивная программа обучения «Общий+Эксперт» — двухэтапная стратегия обучения, которая сначала усваивает общие визуальные априорные знания, а затем внедряет воплощённую специализацию в рамках единого языкового интерфейса. Обширные результаты демонстрируют высокую конкурентоспособность: модель занимает 1-е место в целом на EWMBench и DreamGen Bench, превосходя все открытые модели на WorldModelBench и PBench. Дополнительный нулевой анализ (zero-shot) на бенчмарке RoboTwin-IF подтверждает надёжное обобщение и мультиракурсную согласованность.

OneRank: Унифицированная нативная Transformer-архитектура ранжирования для многозадачной рекомендации
OneRank: Unified Transformer-Native Ranking Architecture for Multi-Task Recommendation

Jun 15

ByJiakai Tang, Sunhao Dai, Kun Wang, Zhiluohan Guo, Yu Zhao, Cong Fu, Kangle Wu, Yabo Ni, Anxiang Zeng, Xu Chen, Jun Xu

Многоцелевое обучение (MTL) играет ключевую роль в рекомендательных системах, позволяя осуществлять взаимодополняющее обучение на основе разнообразной обратной связи от пользователей. Хотя современные промышленные практики перешли от ГНС к архитектурам на основе Transformer для усиления моделирования последовательностей и масштабируемости, они по-прежнему разделяют кодирование признаков и многозадачное прогнозирование, рассматривая Transformer как независимый от задачи кодировщик. Такой подход принципиально ограничивает производительность и масштабируемость из-за: (1) создания информационного узкого места при гетерогенных целевых задачах, (2) возникновения градиентной интерференции, приводящей к феномену качелей, и (3) принудительного перехода потока данных, при котором основанное на внимании контекстно-адаптивное обучение представлений преобразуется в статическое прямое прогнозирование задач с несовместимой динамикой чтения-записи информации. Мы предлагаем OneRank — основанный на Transformer единый фреймворк многозадачного ранжирования, который устраняет разделение кодировщика и предиктора и вводит частные для задачи каналы для прямого обучения представлений и обратной оптимизации, обеспечивая специализированное обучение для каждой задачи при одновременном снижении межзадачной интерференции. На прямом проходе OneRank снизу вверх изучает представления, специфичные для задачи, с помощью управляемого задачей отбора информации, контекстуализации с учетом кандидатов и контролируемого межзадачного взаимодействия. На обратном проходе межзадачное открепление градиента изолирует обновления частных для задачи параметров от модулей извлечения общих знаний, предотвращая отрицательный перенос. Кроме того, мы заменяем статические многослойные перцептронные скореры, специфичные для задачи, динамической оценкой на основе сопоставления для контекстно-зависимого персонализированного ранжирования. Интегрируя многозадачный вывод непосредственно в стек Transformer, OneRank создает единую и масштабируемую архитектурную парадигму. Офлайн- и онлайн-эксперименты на крупномасштабных промышленных наборах данных показывают, что OneRank значительно превосходит современные базовые модели, сохраняя при этом вычислительную эффективность.

TokenPilot: Кэш-эффективное управление контекстом для LLM-агентов
TokenPilot: Cache-Efficient Context Management for LLM Agents

Jun 15

ByBuqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu Zhang

По мере развертывания LLM-агентов в долгосрочных сеансах накопление контекста приводит к росту затрат на инференс. Существующие подходы используют текстовое сокращение или динамическое вытеснение памяти для минимизации объема токенов; однако их неконтролируемые модификации последовательностей изменяют разметку, вызывая несоответствия префиксов и аннулирование кэша. Это выявляет критический компромисс между разреженностью текста и непрерывностью кэша подсказок. Для решения этой проблемы мы представляем TokenPilot — фреймворк двухуровневого управления контекстом. На глобальном уровне «Компактизация с учетом ввода» выступает в роли организационной рамки, стабилизируя префиксы подсказок и устраняя открытый фоновый шум на входном шлюзе. На локальном уровне «Вытеснение с учетом жизненного цикла» отслеживает текущую остаточную полезность сегментов контекста, применяя консервативный график пакетных циклов для выгрузки сегментов содержимого только после истечения актуальности задачи. Эксперименты на PinchBench и Claw-Eval в изолированном и непрерывном режимах показывают, что TokenPilot снижает затраты на 61% и 56% в изолированном режиме, а также на 61% и 87% в непрерывном режиме, сохраняя конкурентоспособную производительность по сравнению с предыдущими системами. TokenPilot интегрирован в LightMem2 по адресу https://github.com/zjunlp/LightMem2.

BadWorld: Состязательные атаки на модели мира
BadWorld: Adversarial Attacks on World Models

Jun 15

ByLinghui Shen, Mingyue Cui, Xingyi Yang

Визуальные модели мира (VWM) синтезируют интерактивные, обусловленные действиями развертки на основе одного контекстного изображения. Однако остается открытым вопрос, насколько эти модели устойчивы к состязательным возмущениям. Стандартные состязательные атаки не позволяют оценить эту уязвимость, поскольку у атакующих отсутствуют эталонные будущие видео и они не могут предсказать последующие пользовательские команды. Мы представляем BadWorld — безнаметочный состязательный фреймворк, предназначенный для авторегрессионных VWM, который систематически преодолевает оба ограничения. Во-первых, чтобы обойти необходимость в будущем контроле, мы предлагаем самообучаемую атаку на скорость, которая напрямую нарушает раннюю динамику шумоподавления модели. Во-вторых, чтобы гарантировать обобщение атаки на непредсказуемые действия пользователя, мы формулируем траекторно-адаптивную двухуровневую оптимизацию, которая активно ищет сложные управляющие последовательности для создания нечувствительных к управлению возмущений. При оценке на репрезентативных VWM с непрерывным и дискретным управлением BadWorld выявляет серьезную структурную хрупкость. Визуально неразличимые состязательные изображения надежно вызывают катастрофическую деградацию будущих разверток, приводя к неполному шумоподавлению, структурному коллапсу и несогласованности управления. Эти результаты раскрывают критические риски при развертывании VWM в системах, критичных к безопасности, а также указывают на практический механизм защиты конфиденциальности.

Извлекай, не переучивай: Расширение моделей видения-языка-действия на новые задачи во время тестирования
Retrieve, Don't Retrain: Extending Vision Language Action Models to New Tasks at Test Time

Jun 14

ByJeongeun Park, Juhan Park, Taekyung Kim, Sungjoon Choi, Dongyoon Han, Sangdoo Yun

Расширение политики "зрение-язык-действие" (VLA) на новую задачу обычно требует телеуправляемых демонстраций для конкретной задачи и тонкой настройки под каждую задачу, что делает адаптацию затратной как с точки зрения сбора данных, так и вычислительных ресурсов. В данной работе мы показываем, что эти затраты на адаптацию под каждую задачу на стороне целевого воплощения можно заменить поиском (retrieval). Наша политика с дополнением на основе поиска обучается один раз на парных демонстрациях от целевого воплощения (запрос) и более дешевого воплощения (пул, например, видео с рукой человека), после чего замораживается. Новые задачи добавляются при развертывании путем добавления демонстраций со стороны пула в поисковый пул. Замороженная политика учитывает извлеченные траектории на каждом шаге управления, поэтому новые задачи усваиваются за счет индексации данных, а не обновления параметров. Тонкая настройка требуется только для работы с новым, невиданным ранее воплощением, а не для каждой новой задачи. Мы показываем, что поиск улучшает политики независимо от конкретной основы, включая стандартные VLA-политики, но его эффект особенно заметен в Cosmos Policy — модели мира-действия (WAM), основанной на генерации видео. В этой конфигурации поиск обеспечивает грубое продвижение по задаче, в то время как целевая функция WAM для прогнозирования будущих изображений предоставляет дополнительный сигнал визуальной согласованности, который усиливает действия, обусловленные поиском. На задаче PushT мы изучаем, как поиск обеспечивает повторно используемую априорную информацию о движениях высокого уровня для обобщения между воплощениями на неизвестные целевые углы, в то время как на RoboTwin 2.0 наш метод превосходит базовые подходы к обобщению между воплощениями на неизвестных задачах, и мы также демонстрируем метод на реальном роботе.

SP^3: Сферические априоры для Plug-and-Play восстановления
SP^3: Spherical Priors for Plug-and-Play Restoration

Jun 15

BySean Man, Ron Raphaeli, Matan Kleiner, Or Ronai

В данной статье мы представляем SP^3 — новый алгоритм типа Plug-and-Play, который ускоряет восстановление изображений по принципу максимума апостериорной вероятности, заменяя шумоподавители сферическими энкодерами (СЭ) в качестве генеративных априорных распределений. SP^3 аппроксимирует неразрешимый шаг проксимального априорного распределения, используя жёстко структурированное латентное пространство СЭ в качестве надёжной проекции на многообразие естественных изображений. Чередование этой проекции с этапом согласования данных в замкнутой форме, реализуемым через полуквадратичное расщепление, обеспечивает стабильную сходимость без необходимости вычисления градиента во время логического вывода. Такая уникальная формулировка открывает возможности восстановления «в любое время», позволяя получать чёткие правдоподобные изображения уже с первой итерации. Оценки на различных задачах восстановления изображений показывают, что SP^3 достигает перцепционного качества, сопоставимого с современными методами диффузии и потоков с zero-shot обучением, при этом работая в 3–630 раз быстрее.

Мементо: Реконструировать, чтобы помнить, для последовательной генерации длинных видео
Memento: Reconstruct to Remember for Consistent Long Video Generation

Jun 12

ByXuan Wei, Longbin Ji, Guan Wang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Qingqi Hong

Генерация длинных видеоформатов требует, чтобы повторяющиеся субъекты оставались согласованными при различных сценах, ракурсах, движениях и переходах между сценами. Существующие методы временного разложения повышают масштабируемость, генерируя видео сцена за сценой. Однако они в основном сосредоточены на оптимизации правдоподобных продолжений следующей сцены без проверки, сохраняет ли историческая память свидетельства, критически важные для идентичности субъекта. В результате по мере генерации повторяющиеся субъекты могут размываться, перезаписываться или забываться. В данной статье мы предлагаем Memento — фреймворк, управляемый реконструкцией субъекта, который рассматривает сохранение субъекта как явную проблему установления идентичности, исходя из предпосылки, что банк памяти, достоверно сохраняющий субъект, должен поддерживать реконструкцию этого субъекта только на основе памяти. В частности, Memento совместно обучает авторегрессионную генерацию следующей сцены с реконструкцией субъекта на основе памяти, восстанавливая целевые внешние проявления с использованием исторической памяти и глобальных описаний сюжета. Чтобы разделить долгосрочные свидетельства субъекта и краткосрочные сигналы, Memento вводит механизм двойного запроса памяти, где один запрос извлекает память, относящуюся к идентичности, а другой выбирает ключевые кадры краткого контекста для связного продолжения. Кроме того, конвейер кинематографических данных с учетом субъекта обеспечивает точное контролирующее воздействие при реконструкции посредством согласованных описаний субъекта без местоимений. Эксперименты показывают, что Memento достигает современного уровня производительности в долгосрочной согласованности субъекта, межсценарной когерентности и визуальном качестве.

MVEB: Массовый бенчмарк видеовложений
MVEB: Massive Video Embedding Benchmark

Jun 12

ByAdnan El Assadi, Roman Solomatin, Isaac Chung, Chenghao Xiao, Deep Shah, Manan Dey, Shriya Sudhakar, Zacharie Bugaud, Wissam Siblini, Ayush Sunil Munot, Yashwanth Devavarapu, Rakshitha Ireddi, Michelle Yang, Márton Kardos, Niklas Muennighoff, Kenneth Enevoldsen

Мы представляем Massive Video Embedding Benchmark (MVEB) — эталонный набор из 23 задач для оценки видеовложений, охватывающий классификацию, классификацию с нулевым обучением, кластеризацию, попарную классификацию, поиск и вопросы-ответы по видеоматериалам. Мы оценили 33 модели и обнаружили, что ни одна из них не является доминирующей: вложения на основе MLLM лидируют в классификации, кластеризации, попарной классификации и вопросах-ответах; мультимодальное связывание превосходит в поиске и классификации с нулевым обучением; генеративные MLLM без контрастивной адаптации терпят крах в кросс-модальных задачах. Сравнение пар «только видео» и «аудио + видео» показывает, что вклад аудио зависит от происхождения аннотаций набора данных: аудио помогает, когда метки создавались на основе обеих модальностей, и вредит, когда они создавались только на основе визуальной информации — разрыв в шесть процентных пунктов, последовательно проявляющийся во всех семействах моделей. MVEB выведен из MVEB+, пула из 184 задач, и предназначен для сохранения разнообразия задач при снижении затрат на оценку. Он интегрирован в экосистему MTEB для унифицированной оценки текста, изображений, аудио и видео. Мы публикуем MVEB и все 184 задачи вместе с кодом и лидербордом на https://github.com/embeddings-benchmark/mteb.

Nemotron 3 Ultra: Открытая, эффективная гибридная модель Mamba-Transformer на основе смеси экспертов для агентного рассуждения
Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Jun 12

ByNVIDIA, Aaron Blakeman, Aaron Thomas, Aastha Jhunjhunwala, Abhibha Gupta, Abhinav Khattar, Adam Rajfer, Adi Renduchintala, Adil Asif, Aditya Vavre, Adriana Flores Miranda, Ahmad Bilal, Aileen Zaman, Ajay Hotchandani, Akanksha Shukla, Akhiad Bercovich, Aleksander Ficek, Alex Gronskiy, Alex Kondratenko, Alex Steiner, Alex Ye, Alexander Bukharin, Alexandre Milesi, Ali Taghibakhshi, Alice Gatti, Alisa Liu, Alok Kumar, Amar Phanishayee, Ameya Sunil Mahabaleshwarkar, Amir Klein, Amit Zuker, Amnon Geifman, Anahita Bhiwandiwalla, Ananth Subramaniam, Andrea Santilli, Andrew Fulks, Andrew McHarg, Andrew Tao, Andrii Skliar, Anjulie Agrusa, Ankur Srivastava, Ankur Verma, Anna Shors, Anna Warno, Antoni-Joan Solergibert I Llaquet, Arham Mehta, Arkadiusz Nowaczynski, Arti Jain, Ashwath Aithal, Ashwin Poojary, Asif Ahamed, Asit Mishra, Asma Kuriparambil Thekkumpate, Atefeh Sohrabizadeh, Avinash Kaur, Avinash Vem, Ayush Dattagupta, Barath Subramaniam Anandan, Bardiya Sadeghi, Ben Lanir, Benedikt Schifferer, Besmira Nushi, Bilal Kartal, Bill Thiede, Bita Darvish Rouhani, Bo Deng, Bob Schatz, Boris Ginsburg, Boxin Wang, Brad Nemire, Brandon Norick, Brian Dang, Brian Westphal, Brian Yu, Brucek Khailany, Bryan Catanzaro, Carlo del Mundo, Caryln Aarish, Chankyu Lee, Chantal Hwang, Charbel Sakr, Charles Wang, Charlie Truong, Chen Cui, Cheng Cheng, Cheng-Ping Hsieh, Chenghao Zhang, Chenhui Deng, Chintan Patel, Chris Alexiuk, Christian Cosgrove, Christian Munley, Christine Harvey, Christopher Parisien, Chunyang Shen, Coco Li, Collin Neale, Cynthia Gao, Cyril Meurillon, Dan Gil, Dan Su, Dan Zhao, Dane Corneil, Daniel Afrimi, Daniel Egert, Daniel Korzekwa, Daniel Lo, Daniel Machlab, Daniel Serebrenik, Daniil Sorokin, Daria Gitman, Daria Levy, Darko Stosic, David Mosallanezhad, David Yu, Davit Karamyan, Deena Donia, Deep Debroy, Deepak Narayanan, Devin O'Kelly, Dheeraj Peri, Dhruv Nathawani, Di, Wu, Dima Rekesh, Divyanshu Kakwani, Donald Plummer, Dong Anh, Dongfeng Yu, Dongfu Jiang, Donnie Kim, Dorrin Poorkay, Duncan Riach, Dusan Stosic, Dustin VanStee, Eavan Meng, Edgar Minasyan, Edward Lin, Eileen Margaret Peters Long, Elad Sarafin, Elad Segal, Elena Lantz, Ellie Evans, Elliott Ning, Eric Chung, Eric Harper, Eric Pham-Hung, Eric Tramel, Eric Yang, Erick Galinkin, Erik Pounds, Erika Goncalves Goncalves, Evan Briones, Evan Wu, Evelina Bakhturina, Evgeny Tsykunov, Ewa Dobrowolska, Faisal Ladhak, Farzan Memarian, Fay Wang, Fei Jia, Felipe Soares, Felipe Vieira Frujeri, Feng Chen, Fengguang Lin, Ferenc Galko, Frank Sun, Frankie Siino, Frida Hou, Gal Hubara Agam, Gal Kaplun, Gantavya Bhatt, Gargi Prasad, Garvit Kulshreshtha, George Armstrong, Gerald Shen, Giulio Borghesi, Gordana Neskovic, Gorkem Batmaz, Grace Lam, Greg Mason, Greg Pauloski, Grigor Nalbandyan, Grzegorz Chlebus, Grzegorz Karch, Guan-Ting Liu, Guoming Zhang, Guyue Huang, Haggai Maron, Haifeng Qian, Haim Elisha, Haoxing Ren, Haran Kumar Shiv Kumar, Haribhau Hud, Harris Nover, Harrison Saturley Hall, Hayate Iso, Helen Ngo, Herbert Hum, Herman Sahota, Hexin Wang, Himanshu Soni, Hovhannes Tamoyan, Hua Li, Huanhuan Chen, Hui Li, Hui Wang, Huy Nguyen, Ian Chiles, Ido Galil, Ido Shahaf, Igor Gitman, Igor Shovkun, Ilya Loshchilov, Ingo Guehring, Itamar Schen, Itay Levy, Itay Neeman, Ivan Moshkov, Izik Golan, Izzy Putterman, Jaemin Choi, Jakub Slowikowski, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jatin Mitra, Jeffrey Glick, Jenny Chen, Jesse Oliver, Jiacheng Xu, Jiafan Zhu, Jialin Song, Jian Zhang, Jiantao Jiao, Jiaqi Zeng, Jie Lou, Jim King, Jimmy Zhang, Jingquan Wang, Jinhang Choi, Jinju Chu, Joey Conway, Joey Guman, Johan Jatko, Johannes Rausch, John Kamalu, John Roberts, Johnny Greco, Johnny Mensel, Jonah Alben, Jonas Yang, Jonathan Cohen, Jonathan Raiman, Joseph Jennings, Joshua Mabry, Joshua Pierce, Joyjit Daw, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kajal Jain, Kan Zhu, Kari Briski, Katherine Cheung, Katherine Luna, Keith Willowhawk, Keith Wyss, Keshav Santhanam, Kevin Shih, Kezhi Kong, Khanh Nguyen, Khushi Bhardwaj, Kirthi Shankar Sivamani, Konstantinos Krommydas, Krishna C. Puvvada, Krzysztof Pawelec, Kumar Anik, Kyle Keprios, Kylie Day, Lawrence McAfee, Leo Du, Leon Derczynski, Li Ding, Linda Liu, Lingjie Wu, Lior Kadoch, Lizzie Wei, Luis Vega, Luke Robison, Lun Su, Maarten Van Segbroeck, Maciej Jakub Mikulski, Maer Rodrigues de Melo, Magda Sypula, Mahan Fathi, Makesh Narsimhan Sreedhar, Makesh Tarun Chandran, Manoj Kilaru, Maor Ashkenazi, Marc Cuevas, Marc Romeijn, Marcin Chochowski, Mark Cai, Mark Mozolewski, Markus Kliegl, Marta Stepniewska-Dziubinska, Martyna Patelka, Mattei Machczynski, Matvei Novikov, Mauricio Ferrato, Maximilian Golub, Mehrzad Samadi, Melissa Corpuz, Mengru Wang, Mengxi Wu, Meredith Price, Meriem Boubdir, Micah Schaffer, Michael Andersch, Michael Boone, Michael Gschwind, Michael Lightstone, Michael Loh, Michal Bien, Michal Zawalski, Michelle Gill, Miguel Martinez, Mikail Khona, Mike Chrzanowski, Mike Houston, Mingyuan Ma, Minseok Lee, Mohamed Fawzy, Mohammad Dabbah, Mohammad Shoeybi, Mostofa Patwary, Nabin Mulepati, Najeeb Nabwani, Namit Dhameja, Narimane Hennouni, Natalie Hereth, Nathaniel Pinckney, Nave Algarici, Nave Assaf, Netanel Haber, Nicholas Knight, Nick Reamaroon, Nickson Quak, Nidhi Bhatia, Nikhil Desai, Nikolai Ludwig, Nima Tajbakhsh, Ning Xu, Nir Ailon, Nirmal Juluru, Nitin Nitin, Ofri Masad, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Olivia Viessmann, Olivier Delalleau, Oluwatobi Olabiyi, Omer Ullman Argov, Omri Puny, Oren Tropp, Pablo Ribalta, Pallab Bhattacharya, Panos Lampropoulos, Parth Mannan, Pasha Shamis, Patrick Legresley, Paul Gibbons, Pavlo Molchanov, Pawel Morkisz, Peter Dykas, Peter Jin, Pierre-Yves Aquilanti, Pinky Xu, Piotr Januszewski, Piotr Laskiewicz, Pooya Jannaty, Prakash Gurumurthy, Pranav Prashant Thombre, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Puhui Meng, Qiyu Wan, Rabeeh Karimi Mahabadi, Rachel Oberman, Rachit Garg, Radha Sri-Tharan, Rahul Kandu, Rakshit Sanadhya, Ran El-Yaniv, Ran Zilberstein, Rasoul Shafipour, Ray Macalisang, Rayen Tian, Reka Kovacs, Renjie Pi, Rick Izzo, Rima Shahbazyan, Rishabh Garg, Rishi Puri, Rita Fernandes Neves, Ritchie Zhao, Ritika Borkar, Ritu Gala, Riyad Islam, Robert Clark, Robert Hesse, Robert Kirby, Roger Waleffe, Rohit Watve, Roi Koren, Ron Banner, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Ryan Stewart, Ryota Egashira, Sadegh Mahdavi, Saee Paliwal, Sagar Singh, Sahil Modi, Salika Dave, Samantha Shinagawa, Samuel Kriman, Sandip Bhaskar, Sangkug Lym, Sanjay Kariyappa, Sanjeev Satheesh, Saran Vikas Murari, Satish Pasumarthi, Saurabh Mishra, Saurav Muralidharan, Scott Hara, Sean Narentharen, Selvaraj Anandaraj, Seonjin Na, Seonmeyong Bak, Seonmyeong Bak, Sepehr Sameni, Seph Mard, Serge Panev, Seth Henneman, Seth Poulos, Shahar Mor, Shantanu Acharya, Shaona Ghosh, Sharath Turuvekere Sreenivas, Sharon Mendelson, Shaun Kotek, Shawn Wang, Shay Aharon, Shaya Gharghabi, Sheng-Chieh Lin, Shi Chen, Shiqing Fan, Shirish Baskaran, Shreya Gopa, Shrimai Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shuoyang Ding, Shwetha Krishnamurthy, Siddharth Singh, Simeng Sun, Sirshak Das, Sivakumar Arayandi Thottakara, Smita Ithape, Somshubra Majumdar, Soumye Singhal, Sri Harsha Singudasu, Sridhar Bhuvanapalli, Srimukh Veccham, Stas Sergienko, Stefania Alborghetti, Stephen Ge, Su Rong, Sugam Dipak Devare, Sukrit Rao, Sumeet Kumar Barua, Sungsoo Ha, Sunny Gai, Suriya Gunasekar, Suseella Panguluri, Suyog Gupta, Sviataslau Hinzburh, Sweta Priyadarshi, Syeda Nahida Akter, Talor Abramovich, Tan Bui, Tanay Varshney, Tatevik Ter-Hovhannisyan, Teodor-Dumitru Ene, Terry Kong, Thanh Do, Tianhe Zhang, Tiffany Moore, Tijmen Blankevoort, Tim Moon, Tiyasa Mitra, Tom Balough, Tomasz Grzegorzek, Tomasz Hliwiak, Tomer Asida, Tomer Bar Natan, Tomer Keren, Tomer Ronen, Tony Salim, Tony Wang, Traian Rebedea, Tugrul Konuk, Twinkle Vashishth, Udi Karpas, Ushnish De, Vahid Noorozi, Venkat Srinivasan, Venmugil Elango, Vibhor Agrawal, Victor Cui, Vijay Korthikanti, Vikas Mehta, Vinay Rao, Virginia Wu, Vitaly Kurin, Vitaly Lavrukhin, Vladimir Anisimov, Vu Pham, Wanli Jiang, Wasi Uddin Ahmad, Wataru Ishihara, Wei Du, Wei Ping, Weiheng Chai, Wenliang Dai, Wesley Helmholz, Will Jennings, Will Zhu, Wojciech Prazuch, Xiaowei Ren, Xiwen Yu, Yan Breek, Yang Chen, Yang Yu, Yangyi Chen, Yaniv Galron, Yashaswi Karnati, Yejin Choi, Yev Meyer, Yi-Fu Wu, Yian Zhang, Ying Lin, Yonatan Geifman, Yonggan Fu, Youngeun Kwon, Yu Yao, Yugi Guvvla, Yuki Huang, Yunsheng Liu, Zach Moshe, Zachary Newell, Zhilin Wang, Zhiyu Li, Zhongbo Zhu, Zhuolin Yang, Zihan Liu, Zijie Yan, Zsolt-Alon Wertheimer

Мы представляем Nemotron 3 Ultra — языковую модель типа "смесь экспертов" (Mixture-of-Experts) с гибридной архитектурой Mamba-Attention, содержащую 550 миллиардов параметров, из которых 55 миллиардов активны. Мы предварительно обучили Nemotron 3 Ultra на 20 триллионах текстовых токенов, затем расширили длину контекста до 1 миллиона токенов и выполнили пост-обучение с использованием контролируемой точной настройки (SFT), обучения с подкреплением (RL) и многомодельной политической дистилляции (MOPD). Nemotron 3 Ultra — наша самая мощная модель на сегодняшний день, в которой применяются несколько ключевых технологий: LatentMoE, многотокенное предсказание (MTP), предварительное обучение с NVFP4, многокомпонентное RLVR, MOPD и управление вычислительным бюджетом рассуждений. Nemotron 3 Ultra обеспечивает до ~6 раз более высокую пропускную способность вывода по сравнению с современными публично доступными LLM при сопоставимой точности. Передовая точность, высокая пропускная способность вывода и длина контекста в 1 миллион токенов делают Nemotron 3 Ultra идеальной моделью для длительных автономных агентных задач. Мы открываем исходный код базовых, пост-обученных и квантованных контрольных точек, а также обучающие данные и рецептуру на HuggingFace.

CODA-BENCH: Могут ли кодовые агенты справляться с задачами, интенсивно использующими данные?
CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

Jun 13

ByYuxin Zhang, Ju Fan, Meihao Fan, Shaolei Zhang, Xiaoyong Du

Продвинутые агенты всё чаще демонстрируют потенциал для работы в качестве автономных инженеров, что создаёт растущий спрос на оценочные бенчмарки, отражающие сложность реальной разработки. Такие среды обычно включают как сложный код, так и крупномасштабные данные (например, файловую систему). Однако существующие бенчмарки, как правило, оценивают кодоцентричные или датацентричные способности изолированно, оставляя явный разрыв с реальными сценариями разработки. В данной статье мы устраняем этот пробел, представляя CODA-BENCH — первый бенчмарк, который совместно оценивает интеллектуальные способности в работе с кодом и данными в среде с интенсивным использованием данных. Мы создали изолированную среду Linux, интенсивно использующую данные на основе экосистемы Kaggle (содержащую сотни наборов данных), где агенты должны активно исследовать сложные файловые иерархии для выявления релевантных ресурсов и генерировать код для задач аналитики, основанной на данных. CODA-BENCH включает 1009 задач, охватывающих 31 сообщество, при этом каждая среда задачи содержит в среднем 980 файлов, что имитирует реалистичный масштаб данных и шум. Оценки продвинутых агентов показывают, что даже наиболее эффективные системы с трудом интегрируют обнаружение данных с выполнением кода, достигая лишь 61,1% успешности. Эти результаты подчёркивают существенный разрыв в текущих агентных возможностях для задач с интенсивным использованием данных и указывают на перспективные направления будущих исследований.

Где произошла ошибка? Оценка веб-агентов на уровне процессов с отслеживанием семантического состояния
Where Did It Go Wrong? Process-Level Evaluation of Web Agents with Semantic State Tracking

Apr 8

ByJiwan Chung, JiHyuk Byun, Vibhav Vineet, Seon Joo Kim

Веб-агенты действуют через длинные последовательности взаимодействий, однако существующие бенчмарки оценивают только конечный успех, отбрасывая всю информацию о процессе и предоставляя мало ориентиров для улучшения. В данной работе мы проводим анализ на уровне процессов для веб-агентов. Мы представляем WebStep — бенчмарк из 1800 экземпляров задач с контролируемой сложностью и автоматическим отслеживанием семантических состояний. Каждый сайт предоставляет детерминированную семантическую MDP наряду с графическим интерфейсом: агент действует в интерфейсе, а среда в фоновом режиме записывает высокоуровневые состояния и переходы, что позволяет проводить детальный анализ без ручной аннотации. На основе семантической траектории мы сначала показываем, что процессные метрики выявляют различия, невидимые при оценке результатов: три агента с показателями успеха в диапазоне 31–33% расходятся в охвате исследования и точности выполнения. Затем декомпозиция по навыкам характеризует природу этих различий, обнажая противоположные ранжирования по навыкам, скрытые внутри одного и того же сайта: например, на Housing OpenAI CUA превосходит Qwen3.5 на 23,7% по действиям фиксации, но уступает ему на 15,6% по фильтрации, указывая на конкретный навык, требующий улучшения даже в рамках одной предметной области. Бифуркационный анализ дополнительно локализует решающую ошибку, которая приводит к потере задачи, и показывает, что эта ошибка специфична для агента, а не является общей. Наконец, эти различия усиливаются по мере усложнения задач: показатель успеха схож на простых задачах, но резко расходится, когда исследование становится более требовательным. Наш анализ на уровне процессов открывает новое направление в оценке веб-агентов, предоставляя детальные и практические выводы о том, где и как следует улучшать каждого агента.

GD^2PO: Смягчение конфликтов множественных вознаграждений с помощью групповой динамической оптимизации политики с разделением вознаграждений
GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

Jun 15

ByHaotian Liu, Yihao Liu, Jingwei Ni, Siyuan Huang, Xinpeng Liu, Pengyu Cheng, Jiajun Song, Ruijin Ding, Junfeng Li, Zhechao Yu, Mengyu Zhou, Hongteng Xu, Xiaoxi Jiang, Guanjun Jiang

По мере развития больших языковых моделей (LLM) обучение с подкреплением (RL) после предварительного обучения всё чаще полагается на многомерные вознаграждения для развития комплексных способностей. Этот сдвиг требует новых алгоритмов, способных одновременно оптимизировать разнообразные и потенциально конкурирующие цели. Для решения этой задачи существующие методы, такие как Group reward-Decoupled Policy Optimization (GDPO), разлагают общую оценку на независимые группы вознаграждений, а затем вычисляют потери RL отдельно для каждой группы. Однако эта стратегия всё ещё сталкивается с конфликтами множественных вознаграждений: один прогон может давать положительные преимущества по одним измерениям вознаграждения, но отрицательные по другим, что приводит к взаимному подавлению противоположных сигналов при агрегации, дополнительно снижая эффективность обучения RL. Вдохновлённые методом Dynamic sAmpling Policy Optimization (DAPO), который повышает эффективность обучения RL за счёт фильтрации неэффективных прогонов с почти нулевыми преимуществами, мы предлагаем Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO). В частности, GD^2PO использует механизм фильтрации, учитывающий конфликты, для маскировки прогонов, страдающих от серьёзных расхождений между вознаграждениями. Предотвращая взаимное подавление конфликтующих сигналов, эта стратегия маскировки сохраняет и усиливает величину эффективных преимуществ RL, что значительно ускоряет скорость обучения. Кроме того, мы вводим перевзвешивание на уровне запросов для динамической корректировки интенсивности обновления каждого запроса на основе общего консенсуса по вознаграждениям. Эксперименты на различных многомерных сценариях вознаграждения, включая вызов инструментов и согласование с человеческими предпочтениями, показывают, что GD^2PO последовательно и значительно превосходит существующие базовые методы. Код доступен по адресу https://github.com/Qwen-Applications/GD2PO.

PhoneHarness: Использование агентов для работы с телефоном через смешанные действия GUI, CLI и инструментов
PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

Jun 12

ByChenxin Li, Zhengyao Fang, Zhengyang Tang, Pengyuan Lyu, Xingran Zhou, Xin Lai, Fei Tang, Liang Wu, Yiduo Guo, Weinong Wang, Junyi Li, Yi Zhang, Yang Ding, Huawen Shen, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu

Телефонные агенты всё чаще должны выполнять реальные мобильные рабочие процессы, а не просто предсказывать следующее действие на экране. Однако значительная часть современной литературы по мобильным агентам по-прежнему оценивает их прежде всего как контроллеры графического интерфейса (GUI), которые наблюдают за экраном, генерируют касания и свайпы, а их успех определяется целевым состоянием приложения. Реальные задачи использования телефона шире: они требуют принятия решений о том, когда использовать графические интерфейсы приложений, команды на стороне устройства или структурированные инструменты, при этом оставляя доказательства того, что предполагаемый побочный эффект действительно произошёл. Мы представляем PhoneHarness — смешанный бенчмарк действий и исполнительную среду для изучения агентов, использующих телефон, на верифицируемых мобильных рабочих процессах. PhoneHarness запускает цикл агента на стороне устройства, включающий действия через GUI, CLI и инструменты хост-машины, сочетая детерминированную маршрутизацию действий с ограниченным делегированием GUI и аудируемыми трассами выполнения. Его бенчмарк, PhoneHarness Bench, оценивает, выполняют ли агенты задачи с наблюдаемыми побочными эффектами, а не только то, генерируют ли они правдоподобные окончательные ответы. На размеченной оценочной выборке PhoneHarness достигает процента успешных прохождений в 75,0%, превосходя наиболее сильные настройки без PhoneHarness на 12,9 процентных пункта. Таким образом, PhoneHarness и PhoneHarness Bench выполняют различные, но взаимозависимые роли: среда делает смешанные телефонные рабочие процессы исполнимыми, тогда как бенчмарк измеряет, способны ли агенты использовать эту среду надёжно и безопасно. Наши результаты показывают, что надёжная автоматизация телефона зависит от маршрутизации по поверхностям действий и верифицируемого выполнения, а не только от визуального управления GUI.

UniDDT: Объединение мультимодального понимания и генерации с помощью разделенного диффузионного трансформатора
UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer

Jun 15

ByShuai Wang, Liang Li, Yang Chen, Ruopeng Gao, Yao Teng, Limin Wang

Унифицированные мультимодальные модели (UMM) стали ключевым направлением в области мультимодального интеллекта общего назначения, объединяя понимание и генерацию в единой структуре. Однако существующие UMM сталкиваются с серьезными проблемами: (1) внутренние конфликты обучения между задачами визуального понимания и генерации, приводящие к неоптимальному моделированию в обеих задачах; (2) различные пространства визуального представления для понимания и генерации, препятствующие масштабируемости; (3) чрезмерная зависимость от данных, специфичных для задачи, пренебрегающая двойственностью понимания и генерации текст-изображение. Для решения этих проблем мы предлагаем UniDDT, который использует шумовой кодировщик ViT (Noisy ViT) совместно с LLM для унификации семантического кодирования в задачах визуальной генерации и понимания, применяя отдельный декодер диффузии для разделения декодирования диффузии и декодирования текста. Благодаря этому кодировщику Noisy ViT, UniDDT способен использовать латентное пространство в качестве унифицированного визуального представления, обеспечивая бесшовную совместимость между задачами понимания и генерации. Таким образом, масштабируемость в задачах генерации и семантическая выразительность в задачах понимания могут быть сбалансированы. Кроме того, мы строим двойные структуры данных из одних и тех же пар изображение-текст, способствуя взаимозависимости между данными для генерации и понимания, чтобы использовать их внутреннюю двойственность. Обширные эксперименты демонстрируют, что UniDDT достигает эффективного объединения мультимодального понимания и генерации с улучшенной семантической согласованностью и масштабируемостью. Для задач визуальной генерации наш UniDDT достигает 0,87 баллов по GenEval и 86,9 общего балла по DPG. Для задач мультимодального понимания наш UniDDT достигает 1699,5 баллов на бенчмарке MME и 76,5 общего балла на SEEDbench.

Танграм: Раскрытие неравномерного сжатия KV-кэша для эффективного многораундового обслуживания LLM
Tangram: Unlocking Non-Uniform KV Cache Compression for Efficient Multi-turn LLM Serving

Jun 15

ByHyungmin Kim, Minsoo Kim, Hongseok Kim, Jungwook Choi

Обслуживание многораундовых LLM накапливает историю диалогов, кэш ключ-значение (KV) которой растет с каждым раундом и каждым пользователем, быстро превышая размер самих весов модели и превращая память – а не вычисления – в ограничивающий фактор пропускной способности. Неравномерное сжатие KV, которое выделяет гетерогенные бюджеты для голов внимания, сохраняет точность гораздо лучше, чем равномерные схемы, но остается непрактичным: современные стеки обслуживания предполагают одинаковую длину KV для всех голов, поэтому гетерогенность приводит к фрагментации освобожденной памяти в виде страниц, тратит до 25% времени префилла на возврат разбросанных страниц и искажает рабочие нагрузки GPU, что увеличивает задержку декодирования до 1,7 раза или сжигает 15–20% каждого шага декодирования на перепланирование. Мы наблюдаем, что эту гетерогенность не нужно обнаруживать во время выполнения: удержание по головам следует двухуровневой структурной регулярности – инвариантному относительно входных данных ранжированию голов с узко ограниченными соотношениями на голову – которое может быть откалибровано офлайн на основе всего 50 образцов. Опираясь на это понимание, мы представляем Tangram – фреймворк обслуживания, который статически решает то, что предыдущие системы обрабатывали динамически: «Резервирование бюджета» (Budget Reservation) фиксирует размер каждой головы после сжатия во время планирования, устраняя необходимость возврата страниц; «Рваная страничная организация» (Ragged Paging) группирует головы с похожими бюджетами в независимые таблицы страниц, превращая фрагментацию в освобождаемую память; а «Предварительная балансировка нагрузки» (Ahead-of-Time Load Balancing) предварительно вычисляет сбалансированные разделы GPU без затрат на планирование во время выполнения. Реализованный на основе vLLM, Tangram служит готовой основой для существующих методов неравномерного сжатия, соответствуя их точности, одновременно улучшая сквозную пропускную способность до 2,6 раз по сравнению с базовым полным KV. Наша реализация общедоступна по адресу https://github.com/aiha-lab/TANGRAM.

Track2View: 4D-согласованная генерация видео с управлением камерой на основе парных 3D-точечных треков
Track2View: 4D-Consistent Camera-Controlled Video Generation via Paired 3D Point Tracks

Jun 14

ByFeng Qiao, Zhaochong An, Zhexiao Xiong, Serge Belongie, Nathan Jacobs

Повторная визуализация существующего видео с новой точки обзора камеры требует, чтобы выходной результат следовал заданной траектории камеры, сохраняя при этом внешний вид и динамику исходной сцены в каждом кадре. Существующие методы опираются на покадровые вложения позы, зашумленные рендеринги облаков точек или неявные изученные соответствия, ни один из которых не обеспечивает явной, непрерывной во времени связи между пикселями источника и цели. Мы предлагаем Track2View, который подает на вход диффузионного трансформера видео парные трехмерные треки точек: разреженные траектории точек сцены, спроецированные как в исходное, так и в целевое изображения камеры. Эти треки обеспечивают явные пространственно-временные соответствия, которые по построению непрерывны во времени, кодируя, какой контент должен появиться где и когда. В основе Track2View лежит кондиционер треков с двойным обзором, который переносит визуальный контекст из исходного вида в целевой с помощью безпараметрических геометрических операций и изученной временной агрегации, обеспечивая обобщение на произвольные траектории камеры без запоминания конкретных движений. Мы также представляем конвейер подготовки данных, который извлекает взаимно однозначные соответствия треков путем запуска трехмерного трекера точек на временно конкатенированных парах многокамерных видов. На эталонном наборе из 400 видео, охватывающих статические и динамические сцены, Track2View достигает современных результатов по качеству изображения, синхронизации видов и точности камеры, уменьшая ошибку поворота на 30–65% и ошибку переноса на 61–72% по сравнению с ведущими базовыми методами. Страница проекта доступна по следующему URL: https://qjizhi.github.io/track2view

Иерархическое взвешивание преимущества для тонкой настройки VLA с помощью онлайн-обучения с подкреплением на основе разреженных результатов эпизодов
Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

Jun 15

ByTongyan Fang, Siyuan Huang, Naiyu Fang, Ganlong Zhao, Zhongjin Luo, Jianbo Liu, Xiaogang Wang, Ying Dong, Hongsheng Li

При дообучении предварительно обученных VLA-политик с помощью онлайн-обучения с подкреплением каждый эпизод развертывания даёт лишь один бинарный исход (успех или неудача), тогда как обновление актора требует супервизии на каждом переходе. Существующие подходы обычно сводят этот разреженный исход к одному скалярному сигналу вознаграждения или преимущества, что объединяет различные формы обратной связи на уровне переходов и обеспечивает ограниченное руководство, как только базовый успех задачи становится достижимым. Во-первых, один скалярный сигнал объединяет две цели — жизнеспособность и эффективность; как только базовый успех достигнут, бинарная метка не даёт градиента для различения эффективных завершений и медленных. Во-вторых, развертывания в реальном мире смешивают автономные сегменты и сегменты с вмешательством; наивное присвоение исходов эпизода этим границам приводит к неправильному назначению кредита. Для решения этих проблем мы предлагаем иерархическую клонирование поведения с взвешиванием по преимуществу (Hierarchical Advantage-Weighted Behavior Cloning, HABC), которое обучает отдельные головки критика для этих двух целей на различных подмножествах данных и объединяет их выходы с адаптивным к состоянию балансом. Адаптивный к состоянию затвор \( g_t \) объединяет их однокомпонентные преимущества, отдавая приоритет жизнеспособности, когда успех неопределён, и переключаясь на эффективность только при высокой жизнеспособности, и преобразует результат в веса для каждого перехода в функции потерь актора. Назначение кредита с учётом вмешательств дополнительно ограничивает метки исхода только теми сегментами, которые были выполнены текущей политикой, предотвращая утечку супервизии через границы вмешательств. В экспериментах на реальных роботах на трёх задачах двуручной манипуляции, требующих контакта, HABC повышает успех с базовых показателей обучения с учителем (SFT) в 36%, 44% и 12% до 92%, 88% и 38% соответственно.

Вам не нужны сильные предположения: обучение визуальных представлений с использованием временных разностей
You Don't Need Strong Assumptions: Visual Representation Learning via Temporal Differences

Jun 14

ByNinad Daithankar, Alexi Gladstone, Yann LeCun, Heng Ji

Прогресс в области искусственного интеллекта в значительной степени был обусловлен методами, которые предполагают меньшее. По мере увеличения вычислительных мощностей и объемов данных подходы с более слабыми индуктивными смещениями, как правило, превосходят те, что основаны на более сильных предположениях. Это особенно характерно для области визуального представления обучения, где подходы прошли путь от доминирования обучения с учителем к слабо контролируемому обучению и, наконец, к ныне широко распространенному успеху самообучения без человеческих меток. Тем не менее, даже современные подходы к самообучению по-прежнему зависят от сильных индуктивных смещений, таких как аугментации, маскирование или кадрирование. Если эта тенденция сохранится, даже эти оставшиеся смещения станут узким местом при масштабировании — и наши эксперименты подтверждают это: оптимальная сила индуктивных смещений уменьшается по мере роста объема данных. Это мотивирует поиск подходов, которые опираются на меньшее количество предположений. С этой целью мы представляем метод временной разницы в зрении (TDV) — новую парадигму самообучения на основе видео, которая избегает существующих индуктивных смещений, полагаясь вместо этого на каузальное предположение о том, что прошлое служит причиной будущего. TDV работает путем совместного обучения кодировщика изображений и кодировщика движения таким образом, чтобы представление текущего кадра плюс закодированное движение равнялось представлению следующего кадра. Несмотря на отсутствие использования каких-либо сильных индуктивных смещений, TDV достигает уровня современных методик на задачах плотной пространственной обработки, закладывая основу для обучения представлений без сильных предположений.

Неустойчивые признаки, воспроизводимые подпространства: понимание зависимости от seed в разреженных автоэнкодерах
Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

Jun 10

ByGleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov

Разреженные автоэнкодеры (SAE) широко используются для интерпретации представлений нейронных сетей, однако их полезность зависит от того, воспроизводятся ли изученные признаки при повторных запусках обучения. Мы исследуем этот вопрос через стабильность признаков: для каждого признака SAE мы оцениваем вероятность того, что аналогичный признак появится в независимо обученном SAE. Это дает масштабируемый сигнал для каждого признака, разделяющий стабильные и нестабильные признаки. В крупномасштабном исследовании, охватывающем различные начальные инициализации, модели, слои, размеры словарей и варианты SAE, мы обнаруживаем выраженную функциональную асимметрию: стабильные признаки несут большую часть сигнала, значимого для реконструкции и прогнозирования, тогда как нестабильные признаки имеют слабое маргинальное влияние и в своей основе определяются низкочастотными триггерами поверхностной формы как в статистике активаций, так и в автоматических объяснениях. Геометрически нестабильные признаки по отдельности невоспроизводимы, но сосредоточены в воспроизводимых подпространствах меньшего ранга, что указывает на то, что зависимость от начальной инициализации часто отражает неоднозначность базиса в рамках общего региона пространства активаций, а не чистый шум. Контролируемая синтетическая модель делает этот механизм явным, показывая, что низкоранговые признаки, соответствующие истинным данным, могут быть восстановлены на уровне подпространства, оставаясь неидентифицируемыми как отдельные латентные переменные SAE при разных начальных инициализациях. Наконец, объединяя уникальные признаки, полученные при разных инициализациях, мы конструируем более стабильные SAE, сохраняя при этом объясненную дисперсию в данном контексте. В совокупности эти результаты показывают, что нестабильные признаки — это не просто неудачные или зашумленные латентные переменные: они обладают слабым индивидуальным функциональным воздействием, но отражают воспроизводимую низкоразмерную структуру, которая в стандартных SAE разрешается по-разному в зависимости от начальной инициализации.

MMDiff: Расширение диффузионных трансформеров для мультимодальной генерации
MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

Jun 15

ByYagmur Akarken, Orest Kupyn, Christian Rupprecht

Диффузионные трансформеры продемонстрировали выдающиеся генеративные способности, однако богатые перцептивные представления, вычисляемые на протяжении их траектории шумоподавления, отбрасываются после того, как контент сгенерирован. Мы представляем MMDiff — фреймворк, который превращает замороженный диффузионный трансформер в мультимодальную генеративную систему, совместно создающую изображения вместе с любой комбинацией плотных перцептивных модальностей с использованием легковесных головок декодера. Наше ключевое открытие заключается в том, что перцептивная информация распределена во времени вдоль траектории шумоподавления, а многошаговое слияние признаков с пространственно-варьируемыми весами агрегации является необходимым, улучшая результаты семантической сегментации на величину до 28,7% mIoU по сравнению с извлечением из одного временного шага. Далее мы применяем извлечение внимания на основе концепций для интерпретируемого пространственного управления и показываем, что замороженные диффузионные признаки конкурентоспособны и дополняют современные кодировщики, такие как DINOv3. Обучая только легковесные головки декодера на замороженной базовой модели, мы достигаем высоких результатов в семантической сегментации, обнаружении значимых объектов и оценке глубины, а также демонстрируем, что данный фреймворк обеспечивает эффективную генерацию синтетических данных в масштабе.

Дистилляция на уровне промпта: непараметрическая альтернатива тонкой настройке модели для эффективного рассуждения
Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

Jun 2

BySanket Badhe, Deep Shah

Сложные рассуждения обычно требуют использования подсказок цепочки рассуждений (Chain-of-Thought), что обеспечивает точность, но приводит к неприемлемым задержкам и значительным вычислительным затратам на этапе инференса. Стандартная альтернатива — тонкая настройка меньших моделей — часто жертвует интерпретируемостью, одновременно внося существенные ресурсные и операционные издержки. Для преодоления этих ограничений мы предлагаем метод дистилляции на уровне промптов (Prompt-Level Distillation, PLD). Мы извлекаем явные паттерны рассуждений из модели-учителя и организуем их в структурированный список выразительных инструкций для системного промпта модели-ученика. При оценке на Gemma-3 4B PLD улучшила макро F1 на StereoSet (с 57% до 90,0%) и Contract-NLI (с 67% до 83%), а также повысила точность на LogiQA до 70%. Аналогичные результаты на Mistral Small 3.1 демонстрируют межархитектурную обобщаемость, позволяя этим компактным моделям достигать производительности передовых решений с пренебрежимо малыми задержками. Эти выразительные инструкции делают процесс принятия решений прозрачным, допуская полную верификацию логики человеком, что делает данный подход идеальным для регулируемых отраслей, таких как юриспруденция, финансы и модерация контента, а также для высоконагруженных сценариев и периферийных устройств.

ExpRL: Исследовательское обучение с подкреплением для промежуточного обучения LLM
ExpRL: Exploratory RL for LLM Mid-Training

Jun 15

ByViolet Xiang, Amrith Setlur, Chase Blagden, Nick Haber, Aviral Kumar

Обучение с подкреплением с разреженными наградами (RL) стало стандартным инструментом для улучшения рассуждений больших языковых моделей (LLM), однако его успех критически зависит от покрытия, присутствующего в базовой модели. На практике модели часто подготавливаются к RL с помощью промежуточного обучения на отобранных цепочках рассуждений, которые формируют полезные базовые навыки, такие как декомпозиция, верификация или самокоррекция. Хотя эта стратегия эффективна, она требует ручного указания того, что должна изучать модель, и остается неясным, достаточно ли такого базового покрытия для значительно более сложных задач, требующих комбинирования этих навыков в более широкие стратегии решения. Мы исследуем более автоматизированный подход: промежуточное обучение на основе RL с использованием крупных корпусов данных вида «вопрос-ответ», созданных человеком. Вместо того чтобы рассматривать эталонные решения как цели для имитации, наш метод ExpRL использует их как каркасы для вознаграждения: эталонные решения скрыты от политики и применяются лишь для построения критериев оценки, специфичных для конкретной задачи, с целью суждения о цепочках рассуждений, порождаемых текущей политикой. Политика производит выборку из исходного промпта задачи, в то время как судья на основе LLM сравнивает полученную цепочку рассуждений с эталонным решением и назначает плотные награды на уровне результата или процесса. Это позволяет ExpRL усиливать частичный прогресс, полезные промежуточные редукции и продуктивные паттерны рассуждений, которые разреженные награды за окончательный ответ часто не в состоянии должным образом оценить. На сложных задачах математического рассуждения ExpRL обеспечивает более сильную предварительную подготовку для RL, чем SFT, GRPO с разреженными наградами и самодистилляция, а также создает лучшую начальную точку для последующего RL с разреженными наградами. Дополнительные эксперименты на смешанных доменах также показывают, что ExpRL может выходить за рамки исходной математической области.

PermaVid: Согласованная генерация видео при редактированиях посредством раздельной контекстной памяти
PermaVid: Consistent Video Generation Across Edits via Disentangled Context Memory

Jun 15

ByShuai Yang, Bingjie Gao, Ziwei Liu, Jiaqi Wang, Dahua Lin, Tong Wu

Согласованная генерация видео при операциях редактирования требует постоянства: когда правки изменяют внешний вид сцены или компоновку, последующие генерации должны оставаться согласованными во времени и с разных точек обзора. Однако существующие конструкции памяти испытывают трудности с поддержанием долгосрочной согласованности после таких модификаций, поскольку сохраненные контексты могут устареть или стать недействительными. Чтобы решить эту проблему, мы предлагаем PermaVid — новую структуру, основанную на многомодальной контекстной памяти, которая разделяет пространственный контекст на семантическую внешность и геометрическую структуру, а также редакционно-осознанную стратегию обновления и извлечения памяти, обеспечивающую согласование эволюции памяти с последующими наблюдениями. Конкретно, мы разрабатываем два взаимодополняющих банка памяти: RGB контекстную память, которая фиксирует наблюдения, учитывающие внешность, неявно кодируя геометрию, и глубинную контекстную память, которая сохраняет структуру только геометрии, отделенную от семантики. Основываясь на этой конструкции, мы внедряем управляемую памятью модель генерации видео, которая выполняет многомодальное слияние признаков при эталонных условиях, извлеченных из контекстов памяти смешанной модальности. Эксперименты демонстрируют, что наш метод поддерживает высокую долгосрочную семантическую и структурную согласованность после редактирования, значительно превосходя современные методы.

Отчет об индексе искусственного интеллекта 2026
Artificial Intelligence Index Report 2026

Apr 14

BySha Sajadieh, Loredana Fattorini, Raymond Perrault, Yolanda Gil, Vanessa Parli, Lapo Santarlasci, Juan Pava, Nestor Maslej, Russ Altman, Erik Brynjolfsson, Carla Brodley, Jack Clark, Virginia Dignum, Vipin Kumar, James Landay, Terah Lyons, James Manyika, Juan Carlos Niebles, Yoav Shoham, Elham Tabassi, Russell Wald, Toby Walsh, Dan Weld

Добро пожаловать в девятый выпуск отчета AI Index. Поскольку ИИ продолжает стремительно развиваться, возникает вопрос, смогут ли системы, созданные на его основе, идти в ногу с этим развитием. Рамки управления, методы оценки, системы образования и инфраструктура данных, необходимая для отслеживания влияния ИИ, с трудом поспевают за темпами развития самой технологии. Этот разрыв между возможностями ИИ и нашей готовностью управлять ими проходит через все главы отчета этого года. Новшеством данного выпуска является то, что в отчете отслеживается, как ИИ тестируется более амбициозно в области рассуждений, безопасности и выполнения реальных задач, а также объясняется, почему на эти измерения становится все труднее полагаться. Кроме того, отчет содержит новые оценки экономической ценности генеративного ИИ наряду с появляющимися данными о его влиянии на рынок труда, аналитическую основу по суверенитету ИИ и главу о науке, разработанную в сотрудничестве с Schmidt Sciences. Впервые в отчете представлены отдельные главы, посвященные ИИ в науке и ИИ в медицине, что отражает растущее влияние ИИ в этих двух областях.

Неявное рассуждение для генеративной рекомендации на основе больших языковых моделей
Implicit Reasoning for Large Language Model-based Generative Recommendation

Jun 15

ByYinhan He, Liam Collins, Bhuvesh Kumar, Jundong Li, Neil Shah, Donald Loveland

Большие языковые модели (БЯМ) всё чаще применяются в качестве основы для генеративной рекомендации (ГР), что сулит доступ к предобученным знаниям о мире. Однако надёжное использование этих знаний для ГР остаётся слабо изученным. Ключевым препятствием является то, что БЯМ-основанные ГР обычно представляют элементы с помощью семантических идентификаторов (СИД), что нарушает интерфейс рассуждений на естественном языке БЯМ, поскольку эти токены не встречались модели во время предобучения. Существующие подходы решают эту проблему дорогостоящими многоэтапными конвейерами, которые закрепляют СИД и извлекают явные обоснования, но дают ограниченное понимание того, когда и зачем необходим каждый этап. В данной работе мы систематически декомпозируем конвейеры обучения с явными рассуждениями для БЯМ-основанной ГР, выявляя три ключевых ограничения: ослабление вербализации знаний о мире, рассогласование пространств вложений СИД и токенов естественного языка, а также чувствительность к качеству обоснований, — все они снижают производительность явных рассуждений. Для преодоления этих проблем мы предлагаем PauseRec — лёгкую парадигму неявных рассуждений, адаптированную для ГР. PauseRec исключительно практичен: он позволяет избежать дорогостоящего получения цепочек рассуждений и обучения выравниванию рассуждений, что даёт множество преимуществ: (1) он превосходит стандартные методы явной цепочки рассуждений (CoT) на величину до 6,22%, (2) сокращает затраты на обучение до 65% часов GPU и (3) ускоряет инференс до 71,3%. Эти результаты позиционируют PauseRec как лёгкую альтернативу явному формированию обоснований, обеспечивая более эффективную и действенную БЯМ-основанную ГР.

EgoPhys: Обучение обобщаемым физическим моделям деформируемых объектов по эгоцентрическому видео
EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video

Jun 15

ByHyunjin Kim, Ri-Zhao Qiu, Guangqi Jiang, Xiaolong Wang

Человек естественным образом понимает физику объектов через повседневное взаимодействие, однако точное предсказание сложной деформируемой динамики, такой как поведение эластичных материалов и тканей, остаётся серьёзной задачей для компьютерного зрения и робототехники. Мы представляем EgoPhys — фреймворк, который строит деформируемые физические цифровые двойники на основе только эгоцентрического RGB-видео, используя обобщаемые априорные знания. EgoPhys преодолевает ограничения существующих методов, обеспечивая управляемую генерацию деформируемых цифровых двойников из эгоцентрических видео за счёт дистилляции решений обратной физической задачи для каждого объекта в компактную кодовую книгу, что позволяет предсказывать поля плотности жёсткости пружин для невидимых объектов без оптимизации для каждой пружины на этапе тестирования. Обученный с использованием обобщаемых априорных знаний, полученных из разнообразных эгоцентрических взаимодействий, EgoPhys превосходит базовые методы в реконструкции, прогнозировании будущих состояний и обобщении без предварительного обучения. Для поддержки обучения и оценки мы собрали набор данных эгоцентрических взаимодействий, охватывающий разнообразные деформируемые объекты, сцены и стили манипуляции. Мы развернули EgoPhys на реальном роботе xArm6, демонстрируя, что цифровой двойник, инициализированный по одному эгоцентрическому видео игры человека, может служить внутренним представлением мира, помогающим в планировании действий с деформируемыми объектами, что подчёркивает эгоцентрические RGB-наблюдения как масштабируемый путь к конвейерам «от реальности к симуляции».

Кто меняет мнение? Собственные и межмодельные контраргументы выявляют нестабильность ответов в LLM
Who Flips? Self- and Cross-Model Counterarguments Reveal Answer Instability in LLMs

Jun 14

ByNafiseh Nikeghbal, Amir Hossein Kargaran, Shaghayegh Kolli, Jana Diesner

Стандартные бенчмарки точности предназначены для оценки того, насколько точно большие языковые модели (БЯМ) приближаются к правильным ответам, но не подходят для проверки, придерживаются ли модели верного ответа, когда он оспаривается правдоподобным контраргументом. Мы предлагаем контролируемый протокол для оценки стабильности ответа: после того как модель дает правильный ответ на вопрос с множественным выбором, мы оспариваем ее ответ связным аргументом в пользу неверного варианта и измеряем, меняет ли модель решение. Данная установка: a) изолирует аргументативное содержание от явного социального давления; b) варьирует длину аргумента, самоатрибуцию и источник из другой модели. На семи передовых моделях и 57 предметах MMLU доля изменений ответа варьируется от 17,5% до 97,3%, что выявляет значительные различия в стабильности, не отражаемые одними лишь метриками точности. Мы обнаружили, что самоатрибуция последовательно увеличивает долю изменений (в среднем на +7,1 п.п., до +18,7 п.п.). Кроме того, объединение аргументов за неверные ответы от разных моделей и выбор наиболее эффективного для каждого вопроса дает более сильные состязательные вызовы, чем опора на какой-либо единый источник-модель. Мы также создаем MaxFlip — курируемый набор вызовов, усиливающий изменения до +23,6 п.п. по сравнению со стандартными самогенерируемыми вызовами. Мы публикуем протокол, записи вызовов и MaxFlip для поддержки оценки стабильности наряду со стандартными бенчмарками точности. Материалы доступны по адресу https://github.com/nafisenik/WhoFlips и https://hf.co/datasets/nafisehNik/WhoFlips.

LaWAM: Модели латентных мировых действий для эффективных политик роботов, учитывающих динамику
LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies

Jun 14

ByJialei Chen, Kai Wang, Kang Chen, Shuaihang Chen, Feng Gao, Wenhao Tang, Zhiyuan Li, Weilin Liu, Zhuyu Yao, Boxun Li, Yuanbo Xu, Chao Yu

Модели «видение-язык-действие» (Vision-Language-Action models, VLA) используют крупномасштабное предобучение на данных «видение-язык» для семантического управления роботами, но зачастую лишены явного предвидения того, как действия робота изменяют сцену. Модели «мир-действие» (World-Action Models, WAM) устраняют это ограничение, обусловливая политики предсказанными будущими состояниями, однако существующие подходы обычно опираются на вычислительно затратную генерацию видео со значительной избыточностью на уровне пикселей. Мы представляем LaWAM — скрытую мировую модель действия (Latent World Action Model), которая предоставляет роботизированным политикам предсказательную динамику через компактные скрытые визуальные подцели, а не через реконструированное будущее видео. В основе LaWAM лежит обусловленная скрытыми действиями скрытая мировая модель (Latent World Model, LaWM). Мы получаем LaWM, обучая модель скрытых действий в латентном пространстве предобученной фундаментальной модели зрения и переназначая её прямой декодер для предсказания признаков будущих наблюдений с целью эволюции сцены. Затем LaWAM обусловливает генерацию действий этими предсказанными скрытыми визуальными подцелями, обеспечивая управление роботом, учитывающее динамику. LaWAM достигает современных или конкурентоспособных показателей успешности (success rates, SR) в задачах LIBERO (98.6% SR), RoboTwin (91.22% SR) и в манипуляциях в реальном мире, сохраняя при этом инференс с низкой задержкой. LaWAM выполняет предсказание одного чанка действий за 187 мс и достигает до 24-кратного снижения задержки по реальному времени по сравнению с WAM в пространстве пикселей.

Избирательный контроль при зашумленном восприятии: провалы управления, скрытые агрегированными метриками в модульных сетях
Selective Control under Noisy Perception: Governance Failures Hidden by Aggregate Metrics in Modular Networks

Jun 12

ByIgor Itkin

Система модерации контента может получать высокие баллы по всем стандартным метрикам точности и при этом причинять реальный вред, если её ошибки приходятся на малочисленных пользователей, которые соединяют иначе разобщённые сообщества. Мы демонстрируем это на агентной модели, где N=240 обучающихся агентов в сети с коммунальной структурой публикуют безвредный, продуктивный или опасный контент, а регулятор удаляет или наказывает то, что помечает зашумлённый классификатор. Общая полезность почти не меняется при изменении шума (однофакторный дисперсионный анализ, p=0,96): по совокупным показателям ничего не выглядит неправильным. Вред же сосредоточен на этих пользователях-мостах, чьи полезные сообщения ошибочно подавляются, а опасные — ошибочно остаются безнаказанными. Управленческие потери (L_gov), которые оценивают эти две ошибки отдельно от стоимости принуждения, более чем удваиваются при шуме с преобладанием ложных срабатываний. Агрегированная точность скрывает, кто пострадал, а дешёвой величиной для аудита является количество связей пользователя (степень) — почти идеальный прокси для посредничества, определяющего мост (r=0,96).

Атаки на детекторы машинного текста сохраняют стилистические отпечатки
Attacks on Machine-Text Detectors Retain Stylistic Fingerprints

Jun 8

ByRafael Rivera Soto, Barry Chen, Nicholas Andrews

Несмотря на значительный прогресс в разработке детекторов машинного текста, легкость, с которой машинный текст может быть изменен для уклонения от обнаружения, привела к предположениям, что эта проблема принципиально неразрешима. В данной работе мы исследуем пределы подобных стратегий уклонения. Мы показываем, что хотя текущие атаки, от инженерии запросов до оптимизации под руководством детектора, могут эффективно ухудшать производительность стандартных детекторов, они не способны стереть лежащие в основе стилистические «отпечатки» машинного текста. Мы демонстрируем, что детекторы с малым количеством примеров, использующие пространство стилистических признаков, устойчивы к этим попыткам уклонения, надежно обнаруживая образцы даже от моделей, явно настроенных на предотвращение обнаружения. Это поднимает вопрос: представляет ли стиль универсальную защиту от атак на обнаружение машинного текста? Мы показываем, что ответ «нет», вводя новый подход перефразирования, который одновременно оптимизирует необнаруживаемость и соответствие конкретным человеческим стилям. Мы показываем, что в отличие от предыдущих методов, эта атака эффективно обходит все рассмотренные детекторы, включая те, которые используют стиль письма. Однако мы обнаруживаем, что это уклонение не является абсолютным: по мере увеличения количества документов, доступных для анализа, распределения человеческого и машинного текста снова становятся различимыми. В целом, наши результаты показывают, что надежное обнаружение машинного текста требует перехода от анализа одного документа к анализу множества документов.

Универсальный человеческий захват
Human Universal Grasping

Jun 15

ByKevin Yuanbo Wu, Tianxing Zhou, Isaac Tu, Billy Yan, Irmak Guzey, David Fouhey, Dandan Shan, Lerrel Pinto

Человек способен без усилий захватывать объекты, тогда как многосуставные роботы далеки от такого уровня обобщения. Мы полагаем, что наиболее естественным источником данных для захвата объектов роботами являются люди, которые ежедневно поднимают тысячи предметов. Мы представляем HUG — модель согласования потоков, генерирующую разнообразные человеческие захваты для любого заданного пользователем объекта на основе одного RGB-D-изображения, полученного со стереокамеры. Используя умные очки, мы сначала собираем 1M-HUGs — эгоцентрический набор данных о человеческих захватах, охватывающий 1 млн кадров (27,8 часа) и 6 707 экземпляров объектов в 41 здании. Затем, для моделирования распределения естественных человеческих захватов, наша новая модель согласования потоков объединяет данные RGB и глубины для вывода захвата, параметризованного трансляцией запястья, вращением запястья и позой кисти по модели MANO. Предсказанные захваты могут быть перенастроены на различные кисти роботов, что позволяет осуществлять захват без обучения в повседневных сценах. Для стандартизации оценки мы создаем новый симуляционный бенчмарк HUG-Bench, состоящий из 90 ранее не встречавшихся объектов пяти геометрических категорий различных размеров с метрическими 3D-мешами. Мы оцениваем HUG в реальном мире на 30 объектах из тестового набора HUG-Bench, используя различные стереокамеры, воплощения роботов и бытовые среды. HUG превосходит современные базовые методы захвата на +23% и +34% на нашем сложном наборе объектов. Код, данные, бенчмарк, контрольные точки и интерактивное демо опубликованы на нашем веб-сайте: https://grasping.io/

Призраки Polymarket: когда внецепочечные совпадения сталкиваются с ончейн-ревертами
The Ghosts of Polymarket: When Off-Chain Matches Meet On-Chain Reverts

Jun 15

ByYiming Shen, Yuhan Jin, Shuohan Wu, Yanlin Wang, Jiachi Chen

Polymarket стал заметной платформой рынка прогнозов и одним из наиболее быстрорастущих приложений в DeFi. Для достижения низкой задержки при торговле он применяет гибридную архитектуру: сопоставление заявок происходит вне сети, а расчёты — в сети для окончательного исполнения. Такая конструкция создаёт разрыв консистентности, который мы называем Ghost Fills: заявка, успешно сопоставленная вне сети, может впоследствии не пройти этап ончейн-расчётов. Для понимания последствий этого разрыва для безопасности мы исследуем такие неудачные расчёты, создав GHOSTHUNTER, который восстанавливает их по ончейн-следам и относит к конкретным шаблонам атак. На 1 952 440 транзакциях с отменёнными сопоставлениями заявок мы обнаруживаем, что злоумышленники используют временной интервал между сопоставлением и расчётами для аннулирования уже сопоставленных заявок до их финализации в сети. Далее мы выявляем четыре вектора атаки: увеличение nonce, истощение баланса, отзыв разрешения и ловушка прокси, реализованные в 35 эволюционирующих вариантах. Эти векторы позволяют атакующим выборочно отменять 980 133 исполненные заявки, что даёт возможность осуществлять безрисковые прогнозы, охоту за арбитражными ботами и манипуляции с вознаграждениями за ликвидность, принося не менее 1,49 миллиона долларов прибыли. При этом под угрозой оказываются 1,78 миллиарда долларов, а оператор выплачивает 2,17 миллиона POL (около 212 тысяч долларов). В часы пик отменяется более 24,3% всех исполненных заявок, что вызывает фактическую DoS-атаку. Мы также обнаружили, что код, производный от уязвимого контракта, присутствует в 167 независимых контрактах на 10 блокчейнах, содержащих не менее 23 миллионов долларов пользовательских средств, что расширяет влияние проблемы за пределы Polymarket. Мы уведомили о своих находках затронутые стороны, и проблема частично устранена.

TuneJury: Открытая метрика для улучшения согласования предпочтений при генерации музыки
TuneJury: An Open Metric for Improving Music Generation Preference Alignment

Jun 15

ByYonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Junghyun Koo, Koichi Saito, Yuki Mitsufuji, Chris Donahue

Мы представляем TuneJury — открытую попарную модель вознаграждения на уровне отдельных примеров для задачи «текст-в-музыку», которая предсказывает предпочтительный музыкальный балл на основе текстового запроса и аудиофрагмента. Выпущенная контрольная точка обучена на общедоступных метках человеческих предпочтений, включающих голосования в формате «арена» (A против B), предпочтительные пары на основе метрического согласования, краудсорсинговые попарные сравнения и экспертные эстетические оценки. Предсказанный разброс баллов между двумя фрагментами хорошо откалиброван на нашем отложенном тестовом наборе, что поддерживает фильтрацию данных с помощью простого порога по баллам. TuneJury обобщается как на отложенные тестовые пары, так и на эталоны вне распределения, оставаясь конкурентоспособным по сравнению с предыдущими базовыми моделями на последних. Для генераторов, выпущенных после обучения, мы вводим якорную калибровку — пост-хок, поканальную калибровку по Брэдли-Терри, которая восстанавливает согласованность при существенно лучшей эффективности данных по сравнению с переобучением с нуля. Та же фиксированная награда обеспечивает устойчивый прирост по оси вознаграждения в трёх downstream-приложениях: выбор Best-of-N во время вывода, латентная оптимизация в стиле DITTO и пост-обучение с экспертной итерацией. TuneJury доступен по адресу https://github.com/yonghyunk1m/TuneJury.