HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

36 papers found

За пределами текущего наблюдения: оценка мультимодальных больших языковых моделей в управляемых немарковских играх
Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games

Jun 17

ByShengyuan Ding, Xilin Wei, Xinyu Fang, Haodong Duan, Dahua Lin, Jiaqi Wang, Yuhang Zang

Применение мультимодальных фундаментальных моделей в качестве политик замкнутого цикла всё чаще требует обусловливания действий наблюдениями, которые более недоступны. Однако существующие эталонные тесты либо раскрывают полное состояние, объединяют восстановление скрытого состояния с другими навыками агента, либо проверяют запоминание только после завершения эпизода. Мы представляем RNG-Bench (Реконструктивные немарковские игры) — набор эталонных тестов, предназначенный для изолированной оценки способности базовой модели восстанавливать прошлые наблюдения и действовать на их основе в ходе многошагового взаимодействия. RNG-Bench включает две взаимодополняющие игры: «Пары сопоставления», где идентификаторы карт, кратко показанные в определённых местах, должны быть впоследствии запомнены, и «3D-лабиринт», где эгоцентрические обзоры необходимо интегрировать в пространственную карту. Обе игры оцениваются в унифицированной среде с тремя контролируемыми осями сложности: размер сетки, визуальный паттерн и модальность наблюдения. Эталонный тест также вводит протокол дуэльного противостояния для контроля дисперсии на уровне экземпляров и метрику пробела памяти, которая разделяет забывание и неоптимальный выбор действий. Самые сложные конфигурации требуют контекстов примерно из 128 тысяч токенов и 350 изображений на эпизод и остаются далеки от насыщения передовыми MLLM. Анализ пробела памяти показывает, что большинство остаточных ошибок обусловлено забыванием более ранних наблюдений, а не неоптимальным принятием решений. Наконец, тонкая настройка Qwen3.5-9B на прогонах оптимальной политики и отфильтрованных демонстрациях модели повышает производительность на RNG-Bench и переносится на существующие эталонные тесты без ухудшения общих мультимодальных способностей.

MolmoMotion: Прогнозирование траекторий точек в 3D с помощью языковых инструкций
MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction

Jun 17

ByJianing Zhang, Chenhao Zheng, Yajun Yang, Max Argus, Rustin Soraki, Winson Han, Taira Anderson, Chun-Liang Li, Shuo Liu, Jiafei Duan, Zhongzheng Ren, Jieyu Zhang, Ranjay Krishna

Прогнозирование движения является центральной задачей визуального интеллекта: агенты должны предвидеть, как объекты будут перемещаться, чтобы планировать действия, рассуждать о физических взаимодействиях и синтезировать реалистичные сценарии будущего. Мы утверждаем, что 3D-точки в мировых координатах представляют собой общее представление, которое не зависит от класса объектов, стабильно к изменению точки обзора, компактно и непосредственно полезно для последующих задач. Мы формализуем задачу прогнозирования движения 3D-точек, обусловленного целью: имея короткую визуальную предысторию, набор 3D-точек запроса на интересующем объекте и словесное описание намеченной цели, модель предсказывает будущую 3D-траекторию каждой точки. Мы представляем полный стек для изучения этой задачи в масштабе: (1) MolmoMotion-1M — крупный корпус аннотированных 3D-траекторий точек, связанных с действиями и объектами, полученный из 1,16 млн неограниченных видео; (2) PointMotionBench — выверенный человеком бенчмарк, охватывающий 111 категорий объектов и 61 тип движения; (3) MolmoMotion — общая модель прогнозирования движения, поддерживающая как авторегрессионное предсказание координат, так и генерацию траекторий на основе согласования потоков (flow-matching). MolmoMotion точно предсказывает разнообразные паттерны движения при различных языковых инструкциях и значительно превосходит существующие базовые модели прогнозирования движения на PointMotionBench. Наконец, мы показываем, что изученное априорное представление о 3D-движении хорошо переносится на последующие приложения: оно повышает эффективность обучения и обобщения для манипуляций роботов, а его предсказанные траектории обеспечивают эффективное управление движением для генеративных моделей при синтезе видео с более реалистичным движением объектов.

Kairos: Нативный стек моделей мира для физического ИИ
Kairos: A Native World Model Stack for Physical AI

Jun 16

ByKairos Team, Fei Wang, Shan You, Qiming Zhang, Tao Huang, Zuoyi Fu, Zhisheng Zheng, Yunlong Xi, Feng Lv, Xiaoming Wu, Zeyu Liu, Cong Wan, Pu Li, Ruiqing Yang, Xiaoou Li, Wei Wang, Kangkang Zhu, Yuwei Zhang, Shi Fu, Zheng Zhang, Xiaoning Wu, Xuzeng Fan, Dacheng Tao, Xiaogang Wang

Мировые модели превращаются из пассивных генераторов визуальных данных в фундаментальную, операционную инфраструктуру для физического ИИ: они должны естественным образом усваивать знания о мире из гетерогенного опыта, поддерживать постоянные состояния на протяжении длительных горизонтов и эффективно функционировать в условиях реальных ограничений развертывания. Мы представляем Kairos — стек нативных мировых моделей, спроектированный с учетом этих требований. (1) Kairos познает мир, внедряя нативную парадигму предварительного обучения, управляемую перекрестно-воплощенным учебным планом данных, который организует видеоданные открытого мира, данные о поведении человека и роботизированные взаимодействия в прогрессивную траекторию развития. (2) Kairos поддерживает мир с помощью единого понимания, генерации и прогнозирования в рамках нативной унифицированной архитектуры, оснащенной гибридным линейным темпоральным вниманием, где внимание со скользящим окном фиксирует локальную динамику, дилатированные скользящие окна — зависимости средней дальности, а стробированное линейное внимание поддерживает постоянную глобальную память. Мы устанавливаем формальные теоретические границы, демонстрирующие, что такая факторизация временных зависимостей строго ограничивает накопление ошибок, математически гарантируя распространение состояний на расширенных горизонтах. (3) Kairos запускает мир, включая совместное проектирование системы с учетом развертывания для поддержки низколатентной генерации развертываний на серверном и потребительском оборудовании в циклах наблюдения-действия-обратной связи реального мира. Эксперименты на тестах воплощенных мировых моделей, длинных горизонтов и политик действий показывают, что Kairos достигает производительности топ-уровня, предлагая при этом сильный компромисс между эффективностью и возможностями. В совокупности эти результаты позиционируют Kairos как целостную эксплуатационную основу для будущего саморазвивающегося физического интеллекта.

Guava: Эффективная и универсальная система для воплощенной манипуляции
Guava: An Effective and Universal Harness for Embodied Manipulation

Jun 16

ByHaowen Liu, Xirui Li, Shaoxiong Yao, Peng Shi, Tianyi Zhou, Jia-Bin Huang, Furong Huang, Jiayuan Mao

Языковые модели, обученные на крупномасштабных данных в модальностях зрения и языка, продемонстрировали значительный потенциал для воплощенных агентов. Интеграция моделей через использование воплощенных инструментов предлагает многообещающую альтернативу сквозным системам зрения-языка-действия, сочетая рассуждения высокого уровня с внешними модулями для восприятия, планирования и управления. Однако остается неясным, что делает такую интеграцию эффективной для воплощенных манипуляций и в какой степени она может раскрыть воплощенные способности в широком спектре моделей рассуждения. В данной работе мы представляем Guava — фреймворк для интеграции воплощенных инструментов, разработанный в ходе систематического исследования пространства проектирования агентных рабочих процессов, пространств действий и пространств наблюдений. Наше исследование выявляет три ключевых компонента эффективных воплощенных агентов: итеративные циклы восприятия-рассуждения-действия, семантические абстракции действий и мультимодальные наблюдения. Чтобы понять, являются ли эти принципы проектирования универсальными даже для малых моделей, мы разрабатываем сквозной конвейер обучения, который дистиллирует способности к воплощенным манипуляциям в компактную модель с открытым исходным кодом объемом 4B, используя менее 2K траекторий, полностью собранных в симуляции. Экспериментальные результаты как в симуляции, так и в реальных средах демонстрируют производительность, сопоставимую с передовыми проприетарными моделями, при этом проявляя сильную способность к обобщению на невидимые объекты, новые инструкции и долгосрочные задачи. Результаты показывают, что хорошо спроектированная интеграция может служить масштабируемым, модельно-независимым интерфейсом для воплощенных манипуляций, обеспечивая сильные возникающие воплощенные способности в компактных моделях с открытым исходным кодом при минимальном объеме обучающих данных.

Награда все это время была в ваших данных: коррекция согласования потоков с помощью управляемого дискриминатором обучения с подкреплением
The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL

Jun 17

ByNicolas Beltran-Velez, Felix Friedrich, Zhang Xiaofeng, Reyhane Askari-Hemmat, Xiaochuang Han, Adriana Romero-Soriano, Michal Drozdzal

Модели согласования по скору (score) и по потоку (flow) часто используют обучение с подкреплением на основе предпочтений для двух целей: согласования с субъективными предпочтениями и, что удивительно, восстановления таких свойств, как визуальная реалистичность и согласованная структура объектов, которые обучение на основе согласования должно изучать из самих данных. Мы утверждаем, что это отражает структурное несоответствие. Потери согласования измеряют ошибку регрессии по ℓ2 на поле скоростей или скоров при маргинальных распределениях времени обучения, что является прокси-показателем, плохо согласованным с визуальными и семантическими свойствами, определяющими качество выборки во время инференса. При наличии вознаграждения, согласованного с этими свойствами, RL обходит это несоответствие, оценивая модель на собственных выборках и следуя непосредственно ландшафту вознаграждения. Проблема заключается в получении такого вознаграждения без опоры на человеческие предпочтения, которые дороги и смешивают реалистичность данных с наклонностями аннотаторов. Мы предлагаем RL с направляющим дискриминатором (Discriminator-Guided RL, DRL). DRL обучает дискриминатор разделять данные и выборки базовой модели в предварительно обученном пространстве представлений и использует его логит в качестве вознаграждения в RL с KL-регуляризацией. Предварительно обученное пространство ограничивает дискриминатор перцептивно значимыми направлениями, а логит оценивает логарифмическое отношение правдоподобия между данными и моделью, которое является оптимальным вознаграждением для нацеливания на распределение данных. На SiT, JiT, REPA и RAE DRL снижает FID без направляющей (например, с 9.38 до 2.62 на SiT) и FD в семантическом пространстве (например, с 88.2 до 19.3 на DINOv3 для SiT) с последовательным улучшением на всех базовых архитектурах, а также повышает вознаграждения по человеческим предпочтениям без обучения на них. Оно также обеспечивает лучшую границу Парето между вознаграждением по предпочтениям и точностью изображения при последующей пост-тренировке на основе предпочтений, повышая согласованность и снижая низкоуровневые артефакты, такие как перенасыщение и чрезмерная яркость.

EfficientRollout: системно-осведомленное самоспекулятивное декодирование для RL-роллаутов
EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts

Jun 17

ByMinseo Kim, Minjae Lee, Seunghyuk Oh, Kevin Galim, Donghoon Kim, Coleman Hooper, Harman Singh, Amir Gholami, Hyung Il Koo, Wonjun Kang

Обучение с подкреплением (RL) стало типичной парадигмой пост-обучения для больших языковых моделей (LLM), обеспечивая сильные способности к рассуждению и агентному поведению. Однако генерация rollout'ов остается доминирующим узким местом по задержке, поскольку авторегрессивная выборка декодирует ответы последовательно, и небольшое количество генераций с длинным хвостом часто определяет время завершения. Спекулятивное декодирование (SD) предлагает естественный способ устранения этого узкого места, будучи хорошо зарекомендовавшей себя техникой для обслуживания фиксированных LLM, которая снижает задержку за счет быстрой генерации черновых токенов и их принятия посредством параллельной верификации с сохранением распределения целевой модели. Однако его практические ускорения напрямую не переносятся на rollout'ы в RL: (i) эволюционирующая целевая политика делает любой фиксированный черновик все более несоответствующим выходному распределению политики; и (ii) размеры активных пакетов (batch) уменьшаются в ходе декодирования rollout'ов, переводя декодирование из вычислительно-затратного режима в режим, ограниченный памятью, где параллельная верификация может использовать недостаточно загруженные вычислительные ресурсы. Таким образом, ускорение rollout'ов в RL требует как черновика, остающегося эффективным при длительных генерациях с высокой температурой от эволюционирующей политики, так и системно-осознанного использования SD, избегающего вычислительно-затратных режимов. Мы представляем EfficientRollout — системно-осознанную структуру самоспекулятивного декодирования (self-SD), предназначенную для устранения этого пробела в rollout'ах RL. EfficientRollout извлекает квантованный черновик из целевой модели (т.е. самоспекулятивное декодирование), сохраняя его связанным с эволюционирующей политикой без отдельного предобучения черновика или онлайн-адаптации. Он также координирует системно-осознанную политику переключения SD с адаптацией длины черновика, учитывающей уровень принятия, позволяя спекуляцию только в выгодных режимах, при этом согласуя бюджет на черновую генерацию с изменяющимся качеством черновика. EfficientRollout снижает задержку rollout'ов и сквозную задержку на до 19,6% и 12,7% соответственно по сравнению с ускоренным базовым авторегрессивным (AR) rollout'ом, сохраняя качество итоговой модели.

Вмешательства SAE ненадежны: восстановление подавленного поведения после вмешательства
SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

Jun 16

ByMingyue Cui, Linghui Shen, Xingyi Yang

Разреженные автоэнкодеры (SAE) декомпозируют активации остаточного потока в интерпретируемые признаки. Недавние защиты в скрытом пространстве всё чаще полагаются на такие декомпозиции, предполагая, что идентифицированные «небезопасные» признаки SAE служат действенными рычагами для мониторинга и вмешательства. В этой парадигме ожидается, что подавление определённого вредоносного признака надёжно предотвратит нежелательное поведение модели. Однако мы показываем, что такой успех может скрывать восстанавливаемый режим отказа: подавление может блокировать один видимый путь к поведению, не устраняя само поведение. Мы формулируем эту уязвимость как восстановление после вмешательства — задачу оптимизации в ограниченном пространстве остаточных состояний. Начиная с остаточного состояния после вмешательства, мы оптимизируем остаточные возмущения для восстановления поведения до вмешательства, сохраняя при этом значения целевых признаков SAE после вмешательства. Даже при сильной модели угрозы, где вмешательство остаётся активным на протяжении всей оптимизации и генерации, восстановление остаётся возможным. Чтобы исключить, что восстановление просто отменяет вмешательство, мы используем ортогональные к кодировщику обновления для однослойных вмешательств и соответствующий якобиан отображения признаков в многослойном сценарии. В экспериментах с TPP, разобучением, IOI и управлением отказом этот стресс-тест выявляет восстанавливаемое поведение, несмотря на успешное вмешательство на уровне признаков. Особенно в критическом для безопасности сценарии управления отказом мы достигаем 95,8% уровня восстановления на валидных образцах, сохраняя относительное отклонение защищённых признаков на уровне 0,131, что существенно ниже базовых показателей для суффиксных методов. Анализ атрибуции путей восстановления дополнительно локализует это восстановление в остатке реконструкции SAE — компоненте, не объяснённом автоэнкодером. Эти результаты выявляют разрыв между контролем на уровне признаков и полнотой поведения: признаки SAE могут поддерживать причинное вмешательство, но управление ими не гарантирует контроль над лежащим в основе поведением.

От ученика к учителю: среда обучения с подкреплением, разработанная LLM, с многоагентным рассуждением
From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning

Jun 16

ByChao Chen, Chengzu Li, Zhiwei Li, Yinhong Liu, Zhijiang Guo

Конвейеры обучения с подкреплением для больших языковых моделей (БЯМ) часто полагаются на ручную переработку среды между этапами, что требует от практиков эвристического вывода о том, какая конфигурация наилучшим образом улучшит текущую политику. Для автоматизации этого процесса мы предлагаем фреймворк «БЯМ как инженер среды», в котором текущая модель политики анализирует неудачные траектории вместе с контекстной информацией и предлагает изменения конфигурации среды обучения для следующего этапа. Мы также представляем MAPF-FrozenLake — контролируемый тестовый полигон, генератор которого предоставляет многомерные конфигурации среды, что делает его пригодным для изучения и тестирования редизайна среды. На этом полигоне мы передаём инженеру среды структурированные сводки поведения политики, случаев неудач и статистики среды, на основе которых он формирует конфигурацию для следующего этапа обучения. Используя Qwen3-4B в качестве основы, наш фреймворк достигает наилучшей совокупной производительности на наших тестовых наборах, превосходя как более крупные проприетарные БЯМ (например, GPT, Gemini), так и базовые подходы с фиксированной средой обучения. Далее мы анализируем, какие формы контекста наиболее эффективны, и обнаруживаем, что успешные обновления среды опираются на доказательства неудач и сохраняют те конфигурации, которые уже работают. Интересно, что текущий контрольный пункт RL служит лучшим инженером среды, чем исходная базовая модель, что указывает на то, что обучение политики улучшает способность модели диагностировать свои оставшиеся слабые места.

Усиление двухпутевого рассуждения в пространственных зрительно-языковых моделях
Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

Jun 16

ByYatai Ji, An-Chieh Cheng, Yang Fu, Yukang Chen, Han Zhang, Zhaojing Yang, Wei Huang, Ka Chun Cheung, Song Han, Vidya Nariyambut Murali, Pavlo Molchanov, Jan Kautz, Simon See, Hongxu Yin, Ping Luo, Sifei Liu

Пространственные VLM достигли значительного прогресса в геометрическом восприятии, однако сложные пространственные рассуждения, требующие многошагового вывода на основе глубины, расстояния и отношений между сценами, остаются сложной задачей. Более того, различные пространственные запросы требуют принципиально разных стратегий: одни лучше всего решаются с помощью чисто лингвистических пошаговых дедукций, тогда как другие требуют явного трёхмерного обоснования перед количественным выводом. Мы представляем SR-REAL (Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs) — единую структуру, которая наделяет пространственную VLM двумя взаимодополняющими путями рассуждения: только языковое рассуждение (LOR), выполняющее пошаговые лингвистические дедукции, и обнаружение-затем-рассуждение (DTR), которое обнаруживает трехмерные геометрические подсказки (например, центры или ограничивающие рамки) с помощью токенов областей перед явным геометрическим выводом. SR-REAL начинается с этапа контролируемой тонкой настройки с холодным стартом, который создает надзор за цепочкой рассуждений LOR и DTR и предоставляет интерфейс "регион-в-3D", после чего следует RL, оптимизирующий модель политики с помощью наград за точность и формат; для DTR дискретная награда за обнаружение на основе центров дополнительно уточняет геометрическое согласование. На различных пространственных эталонах SR-REAL значительно превосходит базовые пространственные VLM: (i) одна модель, обученная с помощью RL, поддерживает оба пути рассуждения, причем DTR превосходит в задачах, учитывающих регионы, благодаря точной трехмерной локализации, а LOR улучшает общие пространственные рассуждения; (ii) совместное обучение обоих путей способствует взаимному усилению; (iii) высококачественные смешанные данные холодного старта критически важны для стабильной оптимизации RL; (iv) модель демонстрирует обобщение на разных наборах данных и областях без донастройки по каждой задаче, показывая положительный перенос между LOR и DTR.

Доверяйте правильному учителю: самодистилляция с учетом качества для привязки к элементам графического интерфейса
Trust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding

Jun 16

ByJingyuan Huang, Zuming Huang, Yucheng Shi, Tianze Yang, Xiaoming Zhai, Wei Chu, Ninghao Liu

Привязка графического пользовательского интерфейса (GUI) требует от моделей «язык-зрение» (VLM) идентифицировать мелкие целевые элементы на снимках экрана высокого разрешения и предсказывать точные экранные координаты. Одно-политическая самодистилляция (OPSD) является перспективным методом пост-обучения для этой чувствительной к координатам задачи, поскольку она предоставляет плотные учительские сигналы на уровне токенов, выходящие за рамки жестких меток координат. Однако наивная OPSD плохо подходит для привязки GUI: OPSD оценивает учителя на сгенерированных студентом префиксах, и качество учительских сигналов токенов координат может ухудшаться, когда префикс уже отклонился от целевой координаты, что приводит к ненадежному учительскому сигналу. Чтобы смягчить это, мы предлагаем самодистилляцию с учетом качества для привязки GUI на основе VLM, которая улучшает качество учительских сигналов токенов координат с помощью мягкого стробирования с учетом правильности и масштабирования вероятности учителя. Мягкий стробирующий элемент с учетом правильности проверяет, может ли текущее предсказание учителя для токена координат быть завершено до истинного прямоугольника (ground-truth box) при сгенерированном студентом префиксе. Если нет, соответствующий учительский сигнал понижается. Затем масштабирование вероятности учителя использует уверенность учителя как легковесный фактор для дальнейшей калибровки силы стробированного контроля. Ключевой эмпирический вывод состоит в том, что ни один из компонентов по отдельности не улучшает общую производительность, тогда как их объединение последовательно улучшает производительность. Это предполагает, что два механизма играют взаимодополняющие роли: стробирование с учетом правильности подавляет ненадежный контроль токенов координат, в то время как масштабирование вероятности учителя калибрует силу оставшихся сигналов. Эксперименты на шести эталонных наборах данных по привязке GUI показывают, что наш метод последовательно улучшает базовую модель и превосходит сильные базовые линии.

Нативное активное восприятие как рассуждение для омни-модального понимания
Native Active Perception as Reasoning for Omni-Modal Understanding

Jun 17

ByZhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He, Ziyang Ma, Qize Yang, Yunfei Chu, Jin Xu, Junyang Lin, Chi-Wing Fu, Pheng-Ann Heng

Пассивные модели для понимания длинных видео обычно полагаются на парадигму "просмотра всего целиком", обрабатывая кадры единообразно независимо от сложности запроса, что приводит к росту вычислительных затрат с увеличением длительности видео. Хотя и появились интерактивные архитектуры, они часто опираются на глобальное предварительное сканирование, и их контекстные издержки по-прежнему масштабируются с длиной видео. Мы предлагаем OmniAgent — первого нативного омни-модального агента, который формулирует понимание видео как итеративный цикл "наблюдение-мысль-действие" на основе POMDP. OmniAgent выполняет действия по требованию, избирательно дистиллируя аудиовизуальные сигналы в постоянную текстовую память, тем самым эффективно разделяя сложность рассуждений и сырую длительность видео. Для реализации этого мы вводим (1) агентное контролируемое дообучение для инициализации нативного активного восприятия через синтез траекторий Best-of-N с двухуровневым контролем качества и (2) агентное обучение с подкреплением на основе TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage — преимущество с адаптивной перемасштабированной неопределённостью, учитывающее ходы). Оно использует энтропию на уровне ходов для направления назначения кредитов в сторону ключевых исследовательских ходов. Ключевой момент: OmniAgent демонстрирует положительное масштабирование на этапе тестирования, когда производительность улучшается с увеличением числа шагов рассуждений, что подтверждает эффективность активного восприятия. Эмпирические результаты на десяти бенчмарках (например, VideoMME, LVBench) показывают, что OmniAgent достигает передовой производительности среди моделей с открытым исходным кодом. Примечательно, что на LVBench наш агент с 7 миллиардами параметров превосходит в 10 раз более крупную Qwen2.5-VL-72B (50.5% против 47.3%).

STARE: Управляемое удивлением перевзвешивание преимуществ на уровне токенов для стабильности энтропии политики
STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Jun 17

ByHaipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang

Алгоритмы обучения с подкреплением с проверяемыми вознаграждениями, такие как GRPO, стали доминирующей парадигмой посттренировки для сложных рассуждений в больших языковых моделях (LLM), однако часто страдают от коллапса энтропии политики в процессе обучения. Мы проводим анализ градиентов первого порядка энтропийной динамики на уровне токенов в рамках GRPO и выявляем несоответствие распределения кредитов на уровне токенов: вариация энтропии на токен разлагается на произведение преимущества на уровне траектории и функции чувствительности энтропии по распределению следующего токена, что порождает четырехквадрантную структуру преимущество–сюрпризаль и свойство околокритичности. Основываясь на этом, мы предлагаем STARE (Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability — перераспределение весов преимуществ на уровне токенов под руководством сюрпризаль для стабильности энтропии политики), который идентифицирует подмножества токенов, критические для энтропии, с помощью внутрипакетных квантилей сюрпризаль, выборочно перераспределяет их эффективные преимущества и включает замкнутый контур с целевой энтропией для стабильной регуляции энтропии. На масштабах моделей от 1,5B до 32B и в трех семействах задач (Короткая CoT, Длинная CoT и Многократное использование инструментов) STARE поддерживает стабильное обучение с подкреплением на протяжении тысяч шагов, сохраняя энтропию политики в целевом диапазоне. На наборах AIME24 и AIME25 STARE превосходит DAPO и другие конкурентоспособные базовые методы на 4–8% по средней точности, при этом количество токенов размышления и длина ответа растут синхронно, что указывает на устойчивый баланс между исследованием и эксплуатацией, который дополнительно раскрывает потенциал обучения с подкреплением. Код доступен по адресу https://github.com/hp-luo/STARE.

Суми: Открытая однородная диффузионная языковая модель с нуля
Sumi: Open Uniform Diffusion Language Model from Scratch

Jun 17

ByMengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki

Диффузионные модели стали перспективной альтернативой авторегрессионным моделям. Среди них универсальные диффузионные языковые модели (UDLM) позволяют обновлять любой токен на любом шаге, что в принципе обеспечивает более гибкую генерацию. Однако ни одна UDLM до сих пор не была предобучена с нуля при большом масштабе параметров и большом токеновом бюджете. Для авторегрессионного моделирования и маскированного диффузионного моделирования уже существуют масштабируемые модели, которые сообщество может изучать и развивать; для универсальной диффузии таких моделей нет. Предобученная с нуля UDLM большого масштаба обеспечила бы чистую точку отсчёта для изучения поведения при масштабировании, динамики генерации, управляемости и компромиссов по сравнению с устоявшимися авторегрессионными и маскированными диффузионными моделями. С этой целью мы представляем Sumi («чернила» по-японски) — полностью открытую универсальную диффузионную языковую модель объёмом 7B параметров, предобученную с нуля на 1,5 трлн токенов. Sumi показывает конкурентоспособные результаты по сравнению с авторегрессионными моделями, обученными на сопоставимых токеновых бюджетах, в тестах на знания, рассуждение и кодирование, но уступает в тестах на здравый смысл, чему, вероятно, способствует наша смесь данных с преобладанием образовательных материалов. Мы публикуем веса модели, контрольные точки и полный рецепт обучения, включая полную спецификацию смеси данных по общедоступным корпусам. Мы надеемся, что этот релиз позволит сообществу изучать «родную» универсальную диффузию в масштабе и будет стимулировать исследования её пока недостаточно понятых аспектов.

MaineCoon: разработка аудиовизуальной модели социального мира в реальном времени
MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model

Jun 16

ByLichen Bai, Tianhao Zhang, Shitong Shao, Dingwei Tan, Qiyu Zhong, Zhengpeng Xie, Haopeng Li, Qinghao Huang, Dandan Shen, Tengjiao Ji, Wei Wang, Peicheng Wu, Yuxuan Zhao, Xiangyu Zhu, Welly Luo, Shurui Yang, Zeke Xie

Поскольку всё большая часть мирового видеоконтента потребляется на социальных платформах в интерактивных социальных целях, модели генерации видео, созданные для социальных миров, важны, но в значительной степени игнорируются предыдущими исследованиями. В данной работе мы определяем положение моделей социальных миров и создаём прототип модели как первый шаг к этой цели. В то время как предыдущие модели миров успешно симулируют физические среды или исследование игровых миров, они остаются принципиально оторванными от человеко-центрированной социальной динамики. Чтобы преодолеть этот разрыв в качестве первого шага к моделям социальных миров, мы представляем MaineCoon — первую в реальном времени аудиовизуальную авторегрессионную модель с 22 миллиардами параметров, способную к потоковой генерации в реальном времени и взаимодействию за доли секунды, с рекордной частотой кадров до 47,5 FPS на одном GPU. Насколько нам известно, MaineCoon также является первой моделью генерации аудио и видео в реальном времени, специально оптимизированной для социально-интерактивных приложений. Для обеспечения эффективного и стабильного обучения мы внедряем в MaineCoon несколько новых методов, включая самоповторную выборку, выравнивание кросс-модальных представлений, оптимизацию предпочтений с учётом домена и дистилляцию на основе подкрепляемой онлайн-политики (ROPD). Мы также разрабатываем первую агентскую структуру потокового вывода, которая поддерживает генерацию масштаба тысячи секунд или даже дольше, смягчая дрейф с помощью агентского управления кэшем и планирования подсказок. Эти инновации значительно ускоряют обучение, одновременно оптимизируя производительность вывода в реальном времени. Мы считаем, что эта работа не только устанавливает новый передовой (SOTA) ориентир производительности для высококачественных, малозатратных по времени и долгосрочных аудиовизуальных авторегрессионных моделей, но и указывает на сдвиг парадигмы, необходимый для социальных платформ следующего поколения, основанных на ИИ.

За пределами согласования: разнообразие ценностей как коллективное свойство в многокультурных агентных системах
Beyond Alignment: Value Diversity as a Collective Property in Multicultural Agent Systems

Jun 4

ByShaoyang Xu, Jingshen Zhang, Long P. Hoang, Jinyuan Li, Wenxuan Zhang

Многокультурные мультиагентные системы всё чаще развёртываются в глобально разнообразных условиях, где различные агенты основаны на разных культурных контекстах. Существующая культурная оценка сосредоточена на ценностном согласовании: насколько близко отдельный агент соответствует целевой культуре. Однако согласование является свойством отдельного агента и не может показать, сохраняет ли система в целом ту культурную множественность, которую она призвана представлять. Мы предлагаем разнообразие ценностей как ось системного уровня для оценки многокультурных агентных систем, определяемое через несходство реакций культурно обусловленных агентов на общем опросе ценностей. Используя Всемирное исследование ценностей, мы оцениваем 19 культур и 18 базовых моделей в широком диапазоне конфигураций системы. Мы обнаруживаем, что разнообразие в значительной степени не коррелирует с согласованием, что указывает на то, что эти два показателя отражают взаимодополняющие свойства системы, и что современные многокультурные агентные системы существенно уступают человеческим обществам в разнообразии ценностей. Системы со смешанными базовыми моделями сокращают этот разрыв, но не устраняют его, причём разрыв сохраняется независимо от состава культур и масштабов агентов. Социальное взаимодействие дополнительно снижает разнообразие, подталкивая агентов к консенсусу, а тематическое исследование партисипаторного бюджетирования показывает, что такая гомогенизация сужает широту коллективного принятия решений. В совокупности наши результаты устанавливают разнообразие ценностей как отдельную ось оценки для многокультурных мультиагентных систем и выявляют устойчивую тенденцию к гомогенизации в современных обществах на основе больших языковых моделей. Наш код и данные общедоступны по адресу https://github.com/iNLP-Lab/MultiAgent-Diversity.

CEO-Bench: Могут ли агенты играть вдолгую?
CEO-Bench: Can Agents Play the Long Game?

Jun 16

ByHaozhe Chen, Karthik Narasimhan, Zhuang Liu

Языковые модели-агенты становятся искусными исполнителями изолированных краткосрочных задач, таких как разработка программного обеспечения и обслуживание клиентов. Однако реальные проблемы требуют сочетания сложных навыков, которые в основном остаются непроверенными у агентов: (1) навигация в долгосрочной перспективе в условиях неопределенности; (2) получение информации в зашумленной среде; (3) адаптация к изменяющемуся миру; (4) координация множества движущихся частей для достижения целостной цели. Мы представляем CEO-Bench, который оценивает эти способности вместе, моделируя репрезентативную реальную задачу: управление стартапом в течение 500 дней. Агент управляет ценообразованием, маркетингом, бюджетом и многими другими аспектами вымышленной компании через программируемый интерфейс Python, действуя в той же среде и сталкиваясь с теми же вызовами, что и CEO-человек. Успех требует анализа зашумленных, взаимосвязанных бизнес-баз данных, преобразования сигналов в разумную стратегию и координации множества решений с помощью программирования. Самые сильные агенты пишут сложный код, который моделирует когорты клиентов для прогнозирования будущего денежного потока и анализирует историю переговоров, чтобы выявить скрытые предпочтения клиентов. Тем не менее, большинство современных моделей испытывают трудности в этой среде. Только Claude Opus 4.8 и GPT-5.5 завершают работу с балансом выше стартового в 1 миллион долларов, и ни одна из них не показывает стабильную прибыль. CEO-Bench делает первый шаг к измерению интеллекта, необходимого для достижения устойчивого, адаптивного прогресса с течением времени.

ViT-Up: Точное апсемплирование признаков для визуальных трансформеров
ViT-Up: Faithful Feature Upsampling for Vision Transformers

Jun 12

ByKrispin Wandel, Jingchuan Wang, Hesheng Wang

Витринные трансформеры (Vision Transformers, ViTs) стали доминирующей архитектурой для обучения визуальных представлений, обеспечивая исключительно сильные и широко переиспользуемые магистральные признаки. Однако ViT обычно работают с относительно небольшими сетками патч-токенов из-за квадратичной стоимости глобального самовнимания, что создает постоянное узкое место для задач плотного предсказания, таких как семантическая сегментация и оценка глубины. Это стимулировало разработку независимых от задачи апсемплеров признаков. Хотя современные передовые методы создают визуально резкие плотные представления, их зависимость от неглубоких кодировщиков изображений для управляемого апсемплинга может приводить к утечке признаков, фрагментации и размытию. Мы представляем ViT-Up — неявную структуру апсемплинга признаков, которая заменяет внешнее управление изображением на послойное построение запросов из промежуточных скрытых состояний ViT. Это позволяет предсказывать признаки в произвольных непрерывных координатах изображения, сохраняя согласованность с пространством магистральных признаков. Эксперименты показывают, что ViT-Up стабильно превосходит современные управляемые изображением апсемплеры в задачах плотного предсказания и семантического соответствия. На DINOv3-S+ ViT-Up улучшает предыдущие методы на до +2.07 mIoU на Cityscapes и +4.17 PCK@0.10 на SPair-71k. С более крупной магистралью DINOv3-B эти приросты увеличиваются до +3.36 mIoU и +8.09 PCK@0.10, что демонстрирует масштабирование ViT-Up с емкостью магистрали.

PAIWorld: 3D-согласованная фундаментальная модель мира для роботизированной манипуляции
PAIWorld: A 3D-Consistent World Foundation Model for Robotic Manipulation

Jun 16

ByYuhang Huang, Xuan Lv, Junyan Xu, Zhiyuan Yu, Jiazhao Zhang, Ruizhen Hu, Wancheng Feng, Shilong Zou, Hewen Xiao, Ziqiao Zhou, Kaiyun Huang, Zhiyu Peng, Juzhan Xu, Hang Zhao, Chenyang Zhu, Renjiao Yi, Yifei Huang, Douhui Wu, Yan Zhang, Kexu Cheng, Chunhe Song, Yunzhi Xue, Xiuhong Zhang, Leitao Guo, Yunji Chen, Bin Wu, Haibin Yu, Kai Xu

Фундаментальные модели мира (WFM) представляют собой мощные симуляторы, однако в основном они функционируют в одновидовом режиме и лишены многовидовой 3D-согласованности, необходимой для роботизированного манипулирования. Хотя робототехнические системы полагаются на несколько камер (эгоцентрические, типа «глаз–рука» и закреплённые на запястье) для обучения политик, современные многовидовые мировые модели просто конкатенируют токены видов без явного геометрического обоснования. Это приводит к дрейфу объектов между видами, несогласованности глубины и нарушению выравнивания текстур. Мы связываем эти неудачи с двумя недостатками: отсутствием явного механизма межвидовой коммуникации и отсутствием 3D-геометрического априорного знания. Мы утверждаем, что устранение обоих недостатков одновременно является необходимым и достаточным условием. Для решения этой проблемы мы представляем PAIWorld — фреймворк, расширяющий мировые модели на основе diffusion-transformer с помощью трёх ключевых компонентов: (1) блоков внимания с учётом геометрии между видами (Geometry-Aware Cross-View Attention), которые устанавливают явный путь взаимодействия между видами; (2) геометрического вращательного позиционного кодирования (Geometric Rotary Position Embedding), встраивающего направления лучей камер и внешние позы в механизм внимания; и (3) латентного 3D-REPA, который извлекает 3D-информированные признаки из замороженных 3D-фундаментальных моделей для обеспечения 3D-согласованности. Основанный на мировой фундаментальной модели типа DiT, PAIWorld достигает передовой многовидовой 3D-согласованности на эталонах роботизированного манипулирования, занимая 1-е место в рейтинге WorldArena и 2-е место в рейтинге AgiBot-Challenge2026, а также обеспечивая такие прикладные возможности, как планирование на основе модели, мировые модели действий и пост-обучение многовидовых политик.

SciOrch: Обучение оркестровке экспертных LLM для решения передовых мультимодальных научных задач рассуждения
SciOrch: Learning to Orchestrate Expert LLMs for Solving Frontier Multimodal Scientific Reasoning Tasks

Jun 14

ByJingru Guo, Xiangyuan Xue, Lian Zhang, Wanghan Xu, Siki Chen, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin

Рассуждения в передовых научных областях остаются серьёзной проблемой для больших языковых моделей (БЯМ): даже самые сильные коммерческие системы уступают экспертному уровню. Более детальный анализ поведения моделей выявляет существенную взаимодополняемость, которую скрывает оценка отдельных моделей: разные передовые модели превосходят друг друга на различных типах вопросов, и ни одна из них не может охватить всю картину целиком. Мы представляем SciOrch — фреймворк, который обучает лёгкую модель на 8 млрд параметров для координации передовых БЯМ при решении научных задач. Оркестратор разбивает каждый вопрос на подзадачи, делегирует их выбранным коммерческим моделям через вызовы API и синтезирует итоговый ответ. Обучение такого оркестратора принципиально сложнее стандартного агентного обучения с подкреплением: каждое действие порождает вызов API, что дорого как в денежном выражении, так и по задержке, делая обычное онлайн-разворачивание траекторий невозможным. Мы решаем эту проблему с помощью подхода на основе MCTS (метод Монте-Карло для деревьев поиска), который генерирует разнообразные траектории оркестрации, извлекает однократные примеры для каждого узла и оптимизирует оркестратор с помощью обучения в стиле GRPO. На тестовом наборе из 240 вопросов, охватывающем SGI-Reasoning и Scientists' First Exam (SFE), SciOrch достигает средней точности 56,66%, превосходя сильнейшую отдельную коммерческую модель на 3,74%, а сильнейший мультиагентный базовый метод — на 3,33%. Кроме того, SciOrch показывает наилучшую точность как на SGI, так и на SFE при затратах на API, составляющих менее половины от типичных мультиагентных методов.

RODS: Управляемый вознаграждением онлайн-синтез данных для многошаговых агентов, использующих инструменты
RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

Jun 17

ByRuishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin

Многошаговое RL с использованием инструментов ограничено быстрым истощением информативных образцов в статических наборах данных. Мы наблюдаем, что градиентный сигнал в GRPO сосредоточен на задачах с наибольшей дисперсией вознаграждения при развертывании, что является следствием верхней границы Поповичиу. Следовательно, образцы вблизи границы возможностей агента, где успехи и неудачи примерно сбалансированы, вносят непропорционально большие градиенты политики. По мере обучения эта граница непрерывно смещается, что постепенно истощает пул информативных образцов в статическом наборе данных. Мы предлагаем RODS (синтез данных в реальном времени на основе вознаграждения) для решения этой проблемы истощения. RODS замыкает цикл между обучением RL и генерацией данных, перепрофилируя дисперсию вознаграждения за прогресс как практический детектор границ с нулевой стоимостью, не требующий дополнительных выводов помимо прогонов, уже вычисленных для обучения. Он непрерывно идентифицирует такие граничные образцы, синтезирует новые многошаговые варианты, соответствующие их структурной сложности (например, топология API и глубина зависимостей), с помощью конвейера повторной выборки, согласованного с навыками, и управляет динамическим буфером воспроизведения, который совместно развивается с политикой. Начиная с 400 человеческих начальных образцов и поддерживая активный обучающий пул из ~800 образцов, RODS достигает производительности, сравнимой с офлайн-конвейером из 17 тыс. образцов, требуя при этом примерно в 20 раз меньше траекторий, и превосходит RL с фиксированными данными и дополнением среды в наших контролируемых условиях.

Когда обучение на уровне траекторий позволяет эффективное офлайн-обучение с подкреплением?
When Does Trajectory-Level Supervision Permit Efficient Offline Reinforcement Learning?

Jun 16

ByXuanfei Ren, Tengyang Xie

Офлайн-обучение с подкреплением обычно анализируется при надзоре за вознаграждением на уровне процессов, однако многие наборы данных последовательных решений содержат только исходы на уровне траекторий. Мы разрабатываем статистическую теорию для офлайн-оптимизации политики на основе такого надзора на уровне исходов. Сначала мы изучаем каноническую постановку, где целью остается ожидаемая суммарная награда, но каждая офлайн-траектория предоставляет только скалярную метку, условное среднее которой равно суммарной награде. Мы предлагаем OPAC — пессимистический алгоритм актера-критика, который обучает скрытую модель вознаграждения и оптимизирует политику на основе меток на уровне траекторий. Мы доказываем гарантию с высокой вероятностью порядка \(\widetilde{O}(H^2 C_{sa(\pi^\star)}/n)\) и соответствующую нижнюю границу, характеризующую резкую статистическую стоимость замены вознаграждений на уровне процессов одной меткой на уровне траекторий. Затем мы распространяем этот принцип на обратную связь на основе предпочтений, сохраняя ведущую зависимость от горизонта и концентрируемости с точностью до констант модели предпочтений. Наконец, мы изучаем обобщенный офлайн-RL на основе исходов, где как надзор, так и цель являются величинами на уровне траекторий, порожденными нелинейной агрегацией скрытых пошаговых вознаграждений. Эта задача в общем случае необучаема: для целей типа «все успехи» любой офлайн-обучающийся может потребовать \(\Omega(2^H)\) траекторий даже при детерминированных переходах и постоянной концентрируемости. Затем мы определяем разрешимый режим с помощью двух структурных коэффициентов \(\kappa_\mu(\sigma)\) и \(\chi_\mu(\sigma)\), отражающих потерю информации в агрегации исходов и обобщенных обновлениях Беллмана, при которых обобщенный OPAC достигает полиномиальной сложности по выборке. В совокупности наши результаты очерчивают, когда надзор на уровне исходов обеспечивает эффективное по выборке офлайн-управление, а когда отсутствие вознаграждений на уровне процессов создает фундаментальные статистические барьеры.

Обучение симуляторов пользователей с помощью вознаграждений Тьюринга
Learning User Simulators with Turing Rewards

Jun 17

ByYingshan Susan Wang, Cedegao E. Zhang, Linlu Qiu, Zexue He, Pengyuan Li, Alex Pentland, Roger P. Levy, Yoon Kim

Обучение моделированию поведения пользователей-людей в интерактивных средах может способствовать развитию обучения агентов-ассистентов, оценке систем персонализации, исследованиям в социальных науках и другим областям. Существующие подходы обычно делают это путем обучения большой языковой модели (LLM) соответствию единственному эталонному ответу, либо максимизируя логарифмическую вероятность, либо используя вознаграждение за сходство. Мы же предлагаем {Turing-RL}: подход обучения с подкреплением на основе теста Тьюринга для обучения моделей-симуляторов пользователей. {Turing-RL} использует дискриминативное вознаграждение Тьюринга с судьей на основе LLM для оценки того, насколько сгенерированный ответ неотличим от ответа реального пользователя с учетом его истории, и LLM-симулятор пользователя учится генерировать ответы, неотличимые от того, что мог бы сказать пользователь, с помощью таких вознаграждений. В двух разных областях — диалоговый чат и обсуждения на форуме Reddit — мы обнаружили, что {Turing-RL} стабильно превосходит базовые методы как по метрикам оценки LLM, так и по оценкам человека. Наше исследование показывает, что оптимизация неотличимости, а не соответствия ответам, эффективна для обучения симуляторов пользователей.

Physics-IQ верифицирован
Physics-IQ Verified

Jun 17

ByTim Rädsch, Yuki M Asano, Hilde Kuehne, Stefan Bauer, Priyank Jaini, Robert Geirhos, Carsten T. Lüth

Видеогенеративные модели (ВГМ) стали новым рубежом: они могут применяться не только для генерации видео, но и для множества последующих задач, включая моделирование мира. Для продвижения этих задач хорошая видеомодель должна понимать физическую реальность мира. Оценка этого понимания является формирующейся областью и привела к созданию бенчмарка Physics-IQ, который явно количественно оценивает его путём сравнения видео, сгенерированных моделью, с реальными видеозаписями физических экспериментов. В данной работе мы проводим систематическую верификацию бенчмарка Physics-IQ, выявляем его недостатки и предлагаем три решения, позволяющие более точно измерить физическое понимание ВГМ. В частности, мы улучшаем качество промптов и эталонных данных для уменьшения влияния смешивающих факторов, а также вводим систему оценки на уровне отдельных образцов, которая одинаково взвешивает каждый образец и каждую метрику. Наш итоговый бенчмарк, Physics-IQ Verified, уточняет 57,6% всех образцов и улучшает 34,8% промптов. В сравнительном исследовании шести генеративных моделей изображение-в-видео мы наблюдаем умеренные, но значимые изменения ранжирования (коэффициент Кендалла τ = 0,46). Мы надеемся, что Physics-IQ Verified продвинет сообщество вперёд, предоставляя более надёжный сигнал для физически точных ВГМ. Код бенчмарка доступен по адресу: https://github.com/google-deepmind/physics-iq-benchmark

Экстернализация синтеза и валидации исследований в ИИ-ученых с помощью исследовательской платформы
Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

Jun 17

ByZijian Wang, Hanqi Li, Ziyue Yang, Zijian Hu, Shenghan Zuo, Yunzhe Zhang, Da Ma, Danyu Luo, Chenrun Wang, Jing Peng, Tiancheng Huang, Sijia Guo, Huayang Wang, Zichen Zhu, Senyu Han, Yilu Cao, Kai Yu, Lu Chen

Системы искусственного интеллекта всё чаще способны автоматизировать научные рабочие процессы, однако рассуждения, связывающие предшествующие данные, сгенерированные идеи, эксперименты и итоговые утверждения, зачастую остаются неявными в процессе вывода модели. Здесь мы представляем Xcientist — исследовательскую платформу, которая выносит синтез и экспериментальную проверку результатов во внешний, проверяемый процесс, регулируемый контрактами. Xcientist организует литературные данные, состояния идей, планы реализации, записи абляции и трассы исправлений в виде постоянных исследовательских артефактов, благодаря чему сгенерированные механизмы могут быть обоснованы, выполнены, протестированы и пересмотрены без утраты своей доказательной базы. Мы определяем дрейф утверждений как режим отказа автоматизированных исследований, при котором исполняемые артефакты больше не поддерживают исходно заявленный механизм. Для систем памяти без обучения, графовых структур прогнозирования трафика и многослойных физически-информированных нейронных сетей Xcientist сохраняет отслеживаемые траектории от формулировки задачи до разработки механизма, его проверки и ограниченной коррекции. Эти результаты позволяют предположить, что ИИ-учёных следует оценивать не только по конечным артефактам, но и по тому, остаются ли их процессы синтеза и валидации атрибутируемыми, проверяемыми и научно подотчётными.

REVES: Обучение с дополнением ревизией и верификацией для масштабирования во время тестирования
REVES: REvision and VErification--Augmented Training for Test-Time Scaling

Jun 17

ByYuanxin Liu, Ruida Zhou, Xinyan Zhao, Amr Sharaf, Hongzhou Lin, Arijit Biswas, Mohammad Ghavamzadeh, Zhaoran Wang, Mingyi Hong

Масштабирование во время тестирования с помощью последовательного редактирования стало мощной парадигмой для улучшения рассуждений больших языковых моделей (LLM). Однако стандартные методы пост-обучения в основном оптимизируют одноразовые цели, что создает фундаментальное несоответствие с динамикой многошагового вывода. Хотя недавние работы рассматривают это как многошаговое обучение с подкреплением (RL), традиционные подходы оптимизируют непосредственно многошаговые траектории, не используя в полной мере высококачественные ошибки на промежуточных шагах, из исправления которых модель может извлечь пользу. Мы предлагаем двухэтапную итерационную структуру, которая чередует онлайн-аугментацию данных/подсказок и оптимизацию политики. Преобразуя промежуточные шаги (ответы «почти правильные») в успешных траекториях восстановления в раздельные подсказки для редактирования и проверки, наш подход сосредотачивает обучение как на эффективном преобразовании ответов, так и на выявлении ошибок. Этот подход обеспечивает эффективную генерацию данных вне политики и снижает вычислительные затраты на выборку с длинным горизонтом по сравнению со стандартным многошаговым RL. На LiveCodeBench, используя общедоступные тестовые случаи в качестве обратной связи, мы наблюдаем прирост на +6,5 балла по сравнению с базовым RL и на +4,0 балла по сравнению со стандартным многошаговым обучением. Помимо программирования, наш подход достигает ранее сообщенного результата SOTA по упаковке кругов, используя самую маленькую базовую модель (4B) и гораздо меньшее количество прогонов, чем гораздо более крупные системы эволюционного поиска. Результаты по математике при проверке с помощью истинных данных дополнительно подтверждают улучшенную способность к исправлению. Он также обобщается на внедистрибутивные головоломки на удовлетворение ограничений, такие как n-ферзей и мини-судоку, где правильность полностью определяется условиями задачи. Код доступен по ссылке https://github.com/yxliu02/REVES.git.

MyPCBench: Бенчмарк для персональных интеллектуальных агентов управления компьютером
MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents

Jun 15

ByLawrence Keunho Jang, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

Современные бенчмарки для агентов, использующих компьютер, оценивают модели в безличных средах. Это создаёт разрыв между оценкой и развёртыванием, где предполагается, что персональные ассистенты будут работать во всей цифровой жизни пользователя, включая его контекст, исторические данные и учётные записи, в которые он вошёл. Этот разрыв наиболее заметен в веб-задачах: «живые» веб-оценки не могут задействовать сайты, требующие входа в систему или личной информации, — то есть те сайты, с которыми реальному персональному ассистенту приходится работать. Мы представляем MyPCBench — тест, проверяющий агентов компьютерного использования как персональных ассистентов на Linux-рабочем столе, населённом 17 симулированными реальными веб-приложениями и полным набором компонентов рабочего стола, и всё это инициализировано для одной канонической персоны — Майкла Скотта из сериала «Офис». В этой среде мы определили 184 задачи, каждая из которых вдохновлена реальным запросом из сообщества OpenClaw, и провели бенчмаркинг шести закрытых моделей и моделей с открытыми весами, используя единый инструментарий «компьютер + bash». Мы обнаружили, что лучшая модель, Claude Opus 4.6, полностью решает 55,4% задач — это единственная модель, показатель которой превышает 50%. Неудачи моделей сосредоточены на задачах, охватывающих множество приложений, и на длинных траекториях, где персонализация сильнее всего нагружает ассистента. Мы публикуем среду, набор задач и инструментарий для агентов по адресу https://mypcbench.com.

iOSWorld: бенчмарк для персональных интеллектуальных телефонных агентов
iOSWorld: A Benchmark for Personally Intelligent Phone Agents

Jun 8

ByLawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

Полезный телефонный агент должен обладать личностным интеллектом. Он должен учитывать идентичность пользователя, его историю и предпочтения, хранящиеся на устройстве, а не просто выполнять изолированные инструкции в безличной среде. Существующие бенчмарки мобильных агентов лишены такой персонализации. Мы представляем iOSWorld — первый интерактивный бенчмарк для нативного симулятора iOS, построенный на основе постоянной идентичности пользователя, охватывающей 26 вновь созданных приложений iOS. Эти приложения содержат связанные данные, такие как транзакции, сообщения, записи поездок, социальные связи и финансовая активность. iOSWorld включает 133 задачи трех возрастающих уровней сложности. Задачи в рамках одного приложения (27) проверяют работу с одним приложением, задачи в рамках нескольких приложений (60) охватывают от 2 до 8 приложений, а задачи на память и персонализацию (46) требуют от агентов выявления закономерностей в персональных данных. Мы оцениваем передовые модели и модели с открытым исходным кодом для управления компьютером в двух режимах: только визуальный доступ и привилегированный доступ (визуальный + XML). Лучшая конфигурация достигает 52% в целом, но лишь 37% на задачах с несколькими приложениями. Привилегированный доступ (визуальный + XML) повышает показатели передовых моделей на 26 процентных пунктов, тогда как более мелкие модели не выигрывают от дополнительного ввода из дерева доступности. Мы публикуем iOSWorld как бенчмарк с открытым исходным кодом, включающий все приложения, начальные данные, задачи, критерии оценки и код для оценивания.

IndustryBench-MIPU: Бенчмаркинг извлечения значений атрибутов из нескольких изображений для промышленных изделий
IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products

Jun 12

ByHaonan Qi, Jin Cao, Yongqi Zhang, Xintong Wang, Weidong Tang, Bin Chen, Chengfu Huo, Haojun Pan, Hengyu You, Jing Li, Yingde Wang, Liang Ding

Промышленные изделия, такие как клапаны и автоматические выключатели, определяются детальными техническими спецификациями, которые регулируют закупки, совместимость и безопасность в цепочках поставок. Эти спецификации разбросаны по множеству гетерогенных изображений продуктов, включая таблицы спецификаций, паспортные таблички и технические чертежи, однако остается малоизученным, могут ли мультимодальные большие языковые модели (MLLM) надежно их восстанавливать. Для заполнения этого пробела мы представляем IndustryBench-MIPU — первый крупномасштабный бенчмарк для понимания многократных изображений промышленных продуктов, построенный на структурированном извлечении атрибутов, то есть восстановлении пар «свойство—значение» из изображений продукта. Эта задача одновременно исследует распознавание текста на таблицах спецификаций и паспортных табличках, визуальное рассуждение по техническим чертежам, предметные знания для декодирования промышленной терминологии и интеграцию свидетельств из разных изображений для сборки разрозненных спецификаций. Конкретно, бенчмарк включает 4 559 продуктов, представленных на 27 652 изображениях, с 103 703 аннотациями, охватывающими 18 промышленных категорий, и создан на основе консенсуса нескольких моделей и трехуровневого контроля качества. Оценка девяти MLLM как в режиме одного изображения, так и в режиме многократных изображений на уровне продукта выявляет резкий разрыв по полноте: модели достигают высокой точности (86–94 %), но лучшая из них восстанавливает лишь 49,9 % атрибутов на уровне продукта; переход от извлечения из одного изображения к многократным изображениям приводит к потере 15–34 процентных пункта по полноте. Полнота для многократных изображений, а не точность для одного изображения, является основным узким местом. Набор данных и код находятся в открытом доступе.

Bag of Dims: Механистическая интерпретируемость без обучения через знаковые паттерны на уровне измерений
Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

Jun 17

ByVarun Reddy Nalagatla

Мы показываем, что стандартный базис скрытых состояний трансформера уже представляет собой обучаемый без тонкой настройки, архитектурно-общий признаковый базис. Отдельные измерения кодируют семантическое содержание через свои знаки (+/-1), а достоверность — через свои величины, действуя как независимые бинарные регистры; признак представляет собой подмножество измерений с согласованным паттерном знаков, считываемый путём подсчёта совпадений знаков без обучения поворота. Мы валидируем эту структуру Bag of Dims на семи моделях, охватывающих язык (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), зрение (DINOv2, ViT-Base) и аудио (AST). Одни только знаки несут предсказательное содержание: паттерны знаков с единичной величиной сохраняют 60–93% точности top-5 следующего токена через LM-головку, а бездекодерное оценивание по Хэммингу достигает 80–90% точности top-4096. Из кэша одного токена (один прямой проход на токен, без контекста, без меток) мы детектируем 175 категорий с AUC 0.97–0.99 по согласованию знаков; обученный зонд добавляет лишь +0.018 AUC и сходится к весам, выровненным вдоль осей. Эти признаки причинно действенны: они сохраняются при проекциях ключей/значений (K/V), прослеживаются до коалиций нейронов FFN, которые их порождают (контрольные эксперименты со случайными весами никогда этого не воспроизводят), а переворот знаков признака во время прямого прохода в живом режиме подавляет его концепт в четырёх языковых моделях, будучи согласованным по величине и специфичным для концепта. Измерения остаются независимыми на протяжении всего процесса (попарная взаимная информация ниже 0.006 бит). Эта структура не специфична для языка: те же самые поизмерные знаки наблюдаются в самоконтролируемом зрении (DINOv2, 9/12 суперклассов ImageNet), контролируемом зрении (ViT-Base, 11/12) и аудио (AST, 50/50 категорий ESC-50), что свидетельствует о том, что она отражает обучение трансформера в целом, а не задачу языкового моделирования. Стандартного базиса уже достаточно для считывания признаков за один прямой проход, без оптимизации, без затрат графических процессоров за дни. Открытая проблема смещается с поиска правильного поворота к каталогизации того, что кодирует каждое измерение.

HiLo-Token: адаптивное к входным данным сжатие токенов высоких и низких частот для эффективного редактирования изображений
HiLo-Token: Input-Adaptive High-Low Frequency Token Compression for Efficient Image Editing

Jun 11

ByHaoran You, Yotam Nitzan, Lingzhi Zhang, Yifan Gong, Mang-Tik Chiu, Connelly Barnes, Yan Kang, Yuqian Zhou, Eli Shechtman, Sohrab Amirghodsi

Креативные инструменты редактирования изображений, такие как кнопки «Удалить» или «Генеративная заливка» в Photoshop, являются ключевыми для повседневного использования пользователями и составляют значительную долю трафика в Photoshop и Lightroom. Однако современные генеративные модели ИИ сталкиваются с серьезными проблемами задержки, которые становятся еще более выраженными при переходе от сверточных U-Net к диффузионным трансформерам (DiT). В нашей оценке на сотнях репрезентативных образцов редактирования изображений, охватывающих широкий диапазон коэффициентов маскирования, один только модуль DiT в среднем составляет 73% от общей задержки модели, даже после дистилляции с 50 временных шагов до 8. Для решения этой проблемы мы предлагаем HiLo-Token — адаптивную к входным данным структуру сжатия токенов, которая выделяет больше токенов для высокочастотных областей с богатым контекстом и меньше токенов для низкочастотных областей. В частности, для области редактирования, заданной пользовательской маской, мы сохраняем все токены в пределах расширенной маски для обеспечения сильной локальности и контекстуальной релевантности. За пределами области редактирования мы вводим простую, но эффективную стратегию выбора высокочастотных токенов на основе пространственной частоты для захвата важных локальных деталей, одновременно используя токены из изображения, уменьшенного в 16 раз, для представления низкочастотных компонентов и сохранения размытой, но глобальной структуры. Обширные эксперименты на производственных оценочных данных подтверждают эффективность предложенного метода, достигая ускорения DiT в 3,13x, 2,59x и 1,67x на A100-80GB для задач редактирования изображений с малыми, средними и большими коэффициентами маскирования (средние значения 6,38%, 15,92% и 35,36% соответственно) без какого-либо ухудшения качества генерации.

Видение прежде рассуждения: разделение восприятия и рассуждения для устойчивой к shortcut-ам мультимодальной самодистилляции на политике
Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

Jun 17

BySihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han

On-policy self-distillation (OPSD) обучает модель на ее собственных развертываниях и использует замороженную копию для предоставления плотных целевых значений на уровне токенов, обусловленных эталонной целью. Данный подход хорошо работает для рассуждений LLM, однако прямое расширение на мультимодальные большие языковые модели (MLLM) может создать упрощенный путь: привилегированная цель может направлять токены в основном на основе текстовой эталонной цели, а не изображения. Мы предлагаем ViGOS — визуально обоснованный фреймворк OPSD для пост-тренинга MLLM. Ученик сначала пишет визуальное описание, а затем рассуждает для получения окончательного ответа. Для валидных развертываний учитель восприятия, работающий только с изображением, обучает описание, в то время как привилегированный учитель рассуждения обучает рассуждение и окончательный ответ на том же префиксе ученика. Эталонный учитель используется только для невалидных развертываний для восстановления формата вывода. На тестах по общим задачам понимания языка и изображений, экспертному рассуждению, визуальной математике, пространственной привязке и визуально-языковым априорным знаниям ViGOS сохраняет основные преимущества OPSD и улучшает поведение, основанное на изображениях, в сценариях, склонных к упрощениям.

Морфеус: Морфологически-ориентированный нейронный токенизатор и эмбеддер слов для турецкого языка
Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish

Jun 17

ByTolga Şakar

Турецкий язык является агглютинативным: значение передается морфемами, однако субсловные токенизаторы, лежащие в основе современных языковых моделей, разбивают слова на основе статистики корпуса, фрагментируя семантически нагруженные суффиксы и — в случае WordPiece и анализаторов, основанных на правилах — не в состоянии декодировать свой вывод обратно в исходный текст. В данной статье представлен Morpheus — нейронная модель границ морфем для турецкого языка, которая одновременно является обратимым (без потерь) токенизатором, учитывающим морфологию, и генератором вложений слов. Дифференцируемая динамическая программа на основе пуассоновского биномиального распределения преобразует вероятности границ для каждого символа в мягкие принадлежности к морфемам во время обучения и в точные сегменты во время вывода, без нормализации строки, так что decode(encode(w)) = w выполняется по построению. Поскольку модель является нейронной, тот же прямой проход, который выполняет токенизацию, также выдает структурированное вложение слова. Среди обратимых токенизаторов — единственных, пригодных для генерации, — Morpheus достигает наименьшего количества битов на символ (1,425), примерно вдвое улучшает золотое морфологическое выравнивание субсловного семейства (MorphScore macro-F1 0,61 против ~0,32) и использует примерно на 19% меньше памяти GPU, чем субсловные токенизаторы со словарем из 64K. В качестве генератора вложений замороженные векторы Morpheus лидируют в лексическом поиске (root-family MAP 0,85) и верификации слов с общим корнем (ROC-AUC 1,00), превосходя мультиязычный поисковик BGE-M3 и BERTurk; в задачах, зависящих от контекста и словоизменения (NER, зондирование падежа/числа), более тяжелые контекстные кодировщики остаются впереди — компромисс, который мы объясняем корнецентрической геометрией Morpheus. Код: https://github.com/lonewolf-rd/TurkishMorpheus; модель: https://huggingface.co/lonewolflab/Morpheus-TR-50K; интерактивное демо: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.

Возвращение человека в центр персонализации LLM
Re-Centering Humans in LLM Personalization

Jun 4

ByLechen Zhang, Jiarui Liu, Tal August

Несмотря на растущий интерес, большинство оценок способностей больших языковых моделей (БЯМ) к персонализации основывались на синтетических данных. Остается неясным, насколько хорошо текущие системы персонализации работают для реальных пользователей. В данной работе мы изучаем разрыв в производительности персонализации БЯМ при использовании синтетических и человеческих данных. Мы собрали человеческие диалоги (550 диалогов) и оценки по трем этапам персонализации: извлечение атрибутов пользователя из диалогов (5 949 оценок), сопоставление релевантных атрибутов с новыми запросами (11 919 оценок) и включение релевантных атрибутов в персонализированный ответ (1 101 оценка). Включение человеческих данных выявляет ограничения системы на каждом этапе. Модели с трудом извлекают атрибуты из человеческих диалогов, расходятся с человеческими оценками по релевантным атрибутам и генерируют персонализированные ответы, которые люди оценивают не лучше общих ответов (хотя оценки самих БЯМ обычно считают их лучшими). Мы предлагаем два легковесных интервенционных подхода на основе обучения, которые приближают автоматизированную оценку персонализации к человеческим данным на первых двух этапах. Однако на третьем этапе мы обнаруживаем, что обученные модели вознаграждения достигают лишь скромной корреляции с человеческими оценками, что указывает на сложность прямого моделирования согласованных с человеком суждений о качестве персонализации. Собранные нами данные создают основу для изучения того, как модели должны извлекать, выбирать и включать информацию о пользователе таким образом, чтобы это было полезно для человека.

Бенчмарк и фреймворк для оценки прогнозирования следующих действий в электронных таблицах
A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets

Jun 11

ByTejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

Предиктивное автодополнение кода существенно ускоряет работу разработчиков. В электронных таблицах, несмотря на их гораздо большую распространенность, такие функции автодополнения практически отсутствуют. Чтобы восполнить этот пробел, мы представляем эталонный тест для систем, которые наблюдают последовательность действий пользователя в электронной таблице и прогнозируют будущие действия. Две основные проблемы: (1) отсутствие в общедоступных корпусах электронных таблиц истории изменений и (2) сложное пространство действий с таблицами (пространственные, временные, составные). Для решения первой задачи мы вручную подготовили 52 последовательности из 12 тысяч действий, которые воссоздают электронные таблицы из общедоступных корпусов, используя параметризованные эвристики и уточнение с помощью LLM в качестве основы. Для решения второй задачи мы предлагаем онлайн-оценку: после каждого действия пользователя ожидается прогноз; этот прогноз принимается или отклоняется; в случае принятия будущие действия обновляются; процесс повторяется до получения целевой электронной таблицы. Мы используем несколько базовых прогнозаторов (включая LLM с нулевым обучением, дообученные SLM и классические модели) и анализируем различные свойства, которые выявляет наш эталонный тест, включая, но не ограничиваясь: свойства сохраненных действий и ложных срабатываний, эффективность, влияние профилей пользователей, влияние триггеров и влияние контекста.

Поиск, направляемый обучением с подкреплением, с мягким слиянием для робастного мультимодального имитационного обучения при отсутствующих модальностях
Reinforcement Learning-Guided Retrieval with Soft Fusion for Robust Multimodal Imitation Learning under Missing Modalities

Jun 13

ByHassan Ismkhan, Hamid Bouchahcia

Робототехнические системы воспринимают окружающий мир через множество входных модальностей, включая визуальные потоки с камер и инструкции на естественном языке, и должны выбирать соответствующие действия на основе этих сигналов. Однако предположение о постоянной доступности всех устройств ввода нереалистично, так как датчики могут выходить из строя, заслоняться или полностью отключаться во время эксплуатации. Надежная обработка таких сценариев с пропущенными модальностями, следовательно, является необходимой для реальной работы роботов. В данной статье представлен RL4IL — метод имитационного обучения, управляемый обучением с подкреплением, который выбирает наиболее подходящее действие для данного наблюдения путем идентификации наиболее релевантных экспертных демонстраций из обучающей библиотеки. Политика обучения с подкреплением, обученная с помощью оптимизации ближайшей политики на наборах кандидатов, найденных с использованием поиска в ширину, ранжирует кандидатные демонстрации, а мягкий гибридный модуль с перекрестным вниманием агрегирует их сигналы действий для получения окончательного предсказания. Когда модальность отсутствует во время вывода, специальная политика извлечения данных для каждой модальности на основе обучения с подкреплением идентифицирует демонстрации-доноры из обучающей библиотеки, а мягкий модуль импутации восстанавливает недостающее вложение через перекрестное внимание к лучшим донорам — без необходимости переобучения системы. Эксперименты на трех наборах тестов LIBERO показывают, что RL4IL значительно превосходит современные методы имитационного обучения в условиях отключения датчиков, при этом не требуя обучения сети политики. Код доступен по адресу https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera.

NWDAF с поддержкой LLM: шаг к AI-нативному интеллекту сети 6G
LLM-Enabled NWDAF: A Step Toward AI-Native 6G Network Intelligence

Jun 10

ByHenok Daniel, Omar Alhussein, Cheng Li, Jie Liang, Ernesto Damiani

Функция сетевой аналитики данных (Network Data Analytics Function, NWDAF) играет ключевую роль в обеспечении автоматизированного управления сетями без вмешательства человека (zero-touch) в сетях пятого поколения (5G), поддерживая аналитику в реальном времени и автоматизацию с замкнутым циклом. Несмотря на ее критическую важность, реализации NWDAF с открытым исходным кодом остаются ограниченными по функциональности и доступности. В данной статье мы разрабатываем NWDAF с открытым исходным кодом, совместимый с открытой опорной сетью Free5GC, который собирает сетевые данные посредством подписок на сетевые функции (NF), а также включает встроенный интерфейс большой языковой модели (LLM), обеспечивающий взаимодействие с операторами на естественном языке. Интерфейс обрабатывает намерения пользователя, кодирует их с помощью модели семантического внедрения (semantic embedding) и сопоставляет с одной из семи предопределенных категорий намерений для запуска аналитических запросов или команд подписки на события. Данная архитектура скрывает сложность традиционных интерфейсов, позволяя неспециалистам легко управлять сетевой аналитикой и подписками. Система поддерживает подписки на события от функций доступа и управления (AMF) и функций управления сеансами (SMF), мониторинг в реальном времени и извлечение аналитики через Prometheus, причем все это доступно через диалоговый интерфейс. Соединяя распознавание намерений на основе ИИ со стандартизированной сетевой аналитикой, наша реализация повышает удобство работы оператора и создает основу для сетей 6G, ориентированных на ИИ (AI-native). Исходный код и наборы данных, созданные в ходе данного исследования, доступны в репозитории GitHub: https://github.com/HenokDanielbfg/testbed.