HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

48 papers found

Код как агентская обвязка
Code as Agent Harness

May 18

ByXuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He

172

Недавние большие языковые модели (LLM) продемонстрировали высокие способности в понимании и генерации кода — от соревновательного программирования до инженерии программного обеспечения на уровне репозиториев. В развивающихся агентных системах код перестаёт быть исключительно целевым выходом; он всё чаще выступает операционной основой для рассуждений агента, действий, моделирования среды и верификации на основе выполнения. Мы рассматриваем этот сдвиг через призму агентных обвязок (harnesses) и вводим понятие «код как агентная обвязка»: единое представление, ставящее код в центр инфраструктуры агента. Для систематического изучения этой перспективы обзор организован вокруг трёх взаимосвязанных слоёв. Во-первых, мы исследуем интерфейс обвязки, где код связывает агентов с рассуждением, действием и моделированием среды. Во-вторых, рассматриваем механизмы обвязки: планирование, память и использование инструментов для долгосрочного выполнения, а также управление и оптимизацию на основе обратной связи, обеспечивающие надёжность и адаптивность обвязки. В-третьих, обсуждаем масштабирование обвязки от одноагентных систем к многогагентным средам, где общие кодовые артефакты поддерживают координацию, рецензирование и верификацию множества агентов. В рамках этих слоёв мы обобщаем типовые методы и практические приложения кода как агентной обвязки, охватывающие ассистентов по программированию, автоматизацию графического интерфейса/операционной системы, воплощённых агентов, научные открытия, персонализацию и рекомендации, DevOps и корпоративные рабочие процессы. Также мы намечаем открытые проблемы инженерии обвязок, включая оценку за рамками конечного успеха задачи, верификацию при неполной обратной связи, улучшение обвязки без регрессий, согласованное общее состояние между множеством агентов, человеческий контроль за действиями, критическими для безопасности, и расширения на мультимодальные среды. Ставя код в центр обвязки агентного ИИ, данный обзор предлагает единую дорожную карту к исполняемым, верифицируемым и сохраняющим состояние системам ИИ-агентов.

SkillsVote: Управление жизненным циклом навыков агентов от сбора и рекомендации до эволюции
SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

May 18

ByHongyi Liu, Haoyan Yang, Tao Jiang, Bo Tang, Feiyu Xiong, Zhiyu Li

117

Долгосрочные агенты на основе LLM оставляют следы, которые могли бы стать повторно используемым опытом, однако сырые траектории зашумлены и трудно поддаются управлению. Мы рассматриваем навыки агентов как схему опыта, объединяющую исполняемые сценарии с неисполняемыми инструкциями по процедурам. Тем не менее открытые экосистемы навыков содержат избыточные, неравномерные и чувствительные к среде артефакты, а неразборчивые обновления могут загрязнять будущий контекст. Мы представляем SkillsVote — фреймворк управления жизненным циклом навыков агентов, от сбора и рекомендации до эволюции. SkillsVote профилирует масштабный открытый корпус на предмет требований среды, качества и проверяемости, затем синтезирует задачи для проверяемых навыков. Перед выполнением SkillsVote выполняет агентский поиск по структурированной библиотеке навыков для раскрытия инструктивного контекста навыков. После выполнения он разбивает траектории на связанные с навыками подзадачи, приписывает результаты использованию навыков, исследованию агента, среде и сигналам результатов и допускает к обновлениям, ограниченным доказательствами, только успешные повторно используемые находки. В нашей оценке офлайн-эволюция улучшает GPT-5.2 на Terminal-Bench 2.0 до 7.9 процентных пункта, в то время как онлайн-эволюция улучшает SWE-Bench Pro до 2.6 процентных пункта. В целом, управляемые внешние библиотеки навыков могут улучшать замороженных агентов без обновлений модели, когда системы контролируют воздействие, признание и сохранность.

LongLive-2.0: Параллельная инфраструктура NVFP4 для генерации длинных видео
LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

May 18

ByYukang Chen, Luozhou Wang, Wei Huang, Shuai Yang, Bohan Zhang, Yicheng Xiao, Ruihang Chu, Weian Mao, Qixin Hu, Shaoteng Liu, Yuyang Zhao, Huizi Mao, Ying-Cong Chen, Enze Xie, Xiaojuan Qi, Song Han

101

Мы представляем LongLive-2.0, параллельную инфраструктуру на основе NVFP4, охватывающую полный цикл обучения и инференса генерации длинных видео и решающую проблемы скорости и памяти. Для обучения мы вводим последовательно-параллельное авторегрессионное (AR) обучение, реализованное как Balanced SP, которое совместно проектирует эффективное расположение teacher-forcing с выполнением SP путем объединения чистых исторических и зашумленных целевых временных фрагментов на каждом ранге, что позволяет создать естественную маску teacher-forcing с учетом SP при фрагментированном кодировании VAE. В сочетании с точностью NVFP4 это снижает затраты памяти GPU и ускоряет вычисления GEMM во время обучения, доля которых растет с увеличением длины видео. Более того, мы показываем, что высококачественная инфраструктура и набор данных позволяют создать исключительно чистый конвейер обучения. В отличие от существующих методов серии Self-Forcing, которые полагаются на инициализацию ODE и последующую дистилляцию согласования распределений (DMD), LongLive-2.0 напрямую настраивает диффузионную модель в длинную, многосегментную, интерактивную авторегрессионную (AR) диффузионную модель. Она может быть далее преобразована для генерации в реальном времени (от 4 до 2 шагов шумоподавления) с помощью отдельных весов LoRA. Для инференса на GPU Blackwell мы включаем инференс W4A4 NVFP4, квантизируем KV-кэш в NVFP4 для экономии памяти и повышаем сквозную пропускную способность с помощью асинхронного потокового декодирования VAE. На архитектурах GPU, отличных от Blackwell, мы развертываем инференс SP, чтобы соответствовать скорости на GPU Blackwell, при этом квантизированный KV-кэш может снизить меж-GPU взаимодействие SP. Эксперименты показывают ускорение до 2.15x в обучении и 1.84x в инференсе. LongLive-2.0-5B достигает 45.7 FPS в инференсе, показывая высокую производительность на бенчмарках. Насколько нам известно, LongLive-2.0 является первой системой обучения и инференса на NVFP4 для генерации длинных видео.

Ланс: единое мультимодальное моделирование посредством синергии множества задач
Lance: Unified Multimodal Modeling by Multi-Task Synergy

May 18

ByFengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang

Мы представляем Lance — легковесную нативную унифицированную модель, поддерживающую мультимодальное понимание, генерацию и редактирование как изображений, так и видео. Вместо того чтобы полагаться на масштабирование ёмкости модели или архитектуры с доминированием текста и изображений, Lance исследует практическую парадигму унифицированного мультимодального моделирования посредством коллаборативного мультизадачного обучения. Она основана на двух ключевых принципах: унифицированное контекстное моделирование и раздельные каналы способностей. В частности, Lance обучается с нуля и использует двухпоточную архитектуру «смесь экспертов» на общих перемежающихся мультимодальных последовательностях, что обеспечивает совместное обучение контексту при разделении каналов для понимания и генерации. Мы дополнительно вводим модально-осведомлённое вращательное позиционное кодирование для снижения интерференции между гетерогенными визуальными токенами и улучшения кросс-задачного выравнивания. В процессе обучения Lance применяет поэтапную мультизадачную парадигму с целевыми функциями, ориентированными на способности, и адаптивным планированием данных для усиления как семантического понимания, так и производительности визуальной генерации. Экспериментальные результаты показывают, что Lance существенно превосходит существующие открытые унифицированные модели в генерации изображений и видео, сохраняя при этом высокие способности к мультимодальному пониманию. Домашняя страница доступна по адресу https://lance-project.github.io.

ИИ для автоматического исследования: дорожная карта и руководство пользователя
AI for Auto-Research: Roadmap & User Guide

May 18

ByLingdong Kong, Xian Sun, Wei Chow, Linfeng Li, Kevin Qinghong Lin, Xuan Billy Zhang, Song Wang, Rong Li, Qing Wu, Wei Gao, Yingshuo Wang, Shaoyuan Xie, Jiachen Liu, Leigang Qu, Shijie Li, Lai Xing Ng, Benoit R. Cottereau, Ziwei Liu, Tat-Seng Chua, Wei Tsang Ooi

Исследования с использованием ИИ пересекают порог: полностью автоматизированные системы уже способны генерировать научные статьи стоимостью от 15 долларов, а долгосрочные агенты могут выполнять эксперименты, составлять черновики рукописей и имитировать критику при минимальном участии человека. Однако этот рубеж продуктивности обнажает более глубокую проблему целостности: под давлением научных требований даже передовые LLM по-прежнему фабрикуют результаты, пропускают скрытые ошибки и ненадежно оценивают новизну. Анализируя developments по состоянию на апрель 2026 года, мы представляем сквозной анализ ИИ на всем протяжении исследовательского цикла, структурированный по четырем эпистемологическим фазам: Создание (генерация идей, обзор литературы, программирование и эксперименты, таблицы и рисунки), Написание (написание статьи), Валидация (рецензирование, возражения и доработка) и Распространение (постеры, слайды, видео, социальные сети, страницы проектов и интерактивные агенты). Мы выявляем резкую, зависящую от стадии границу между надежной помощью и ненадежной автономией: ИИ превосходно справляется со структурированными задачами, основанными на поиске и опосредованными инструментами, но остается хрупким в отношении genuinely новых идей, исследовательских экспериментов и научных суждений. Сгенерированные идеи часто деградируют после реализации, исследовательский код значительно отстает от эталонных тестов на сопоставление с образцом, а сквозные автономные системы пока что не достигли стабильно приемлемых стандартов для ведущих изданий. Мы также показываем, что большая автоматизация может скорее скрывать, чем устранять режимы сбоев, делая коллаборацию под управлением человека наиболее надежной парадигмой развертывания. Наконец, мы предоставляем структурированную таксономию, набор эталонных тестов и инвентарь инструментов, межэтапные принципы проектирования и практико-ориентированное руководство; ресурсы поддерживаются на странице нашего проекта.

CHI-Bench: Могут ли AI-агенты автоматизировать сквозные, долгосрочные, насыщенные регламентами рабочие процессы в здравоохранении?
CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

May 15

ByHaolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao

Сквозная автоматизация реалистичных операций в здравоохранении подчеркивает три возможности, недостаточно представленные в современных бенчмарках: плотность регламентов — решения должны основываться на обширной библиотеке медицинских, страховых и операционных правил; многоролевая композиция — выполнение одной задачи требует от агента выполнения нескольких ролей с передачей полномочий; многостороннее взаимодействие — промежуточные этапы рабочего процесса представляют собой многократные диалоги, такие как рецензирование коллегами и работа с пациентами. Мы представляем χ-Bench — бенчмарк долгосрочных рабочих процессов здравоохранения в трех доменах: предварительное разрешение поставщика, управление использованием средств плательщика и управление уходом. Каждая задача предоставляет агенту клинический случай в симуляторе высокой точности, содержащем 20 приложений здравоохранения, доступных через 87 инструментов MCP; агент должен довести задачу до конечного состояния с помощью вызовов инструментов и создания артефактов роли, руководствуясь навыком работы с руководством по операциям управляемого медицинского обслуживания, включающим более 1 290 документов. Среди 30 конфигураций обвязок и моделей агентов лучший агент решает лишь 28,0% задач, ни один агент не преодолевает порог в 20% по строгому критерию pass^3, а выполнение всех задач в одном сеансе снижает производительность до 3,8%. Эти результаты выдвигают гипотезу о том, что аналогичные разрывы, вероятно, проявятся и в других корпоративных доменах с высокой плотностью правил, композицией ролей и необратимостью.

Код-как-комната: Генерация 3D-комнат из изображений видов сверху с помощью агентного синтеза кода
Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis

May 18

ByYixuan Yang, Zhen Luo, Wanshui Gan, Jinkun Hao, Junru Lu, Jinghao Yan, Zhaoyang Lyu, Xudong Xu

Проектирование реалистичных и функциональных 3D-помещений необходимо для широкого спектра приложений, включая дизайн интерьеров, виртуальную реальность, игры и воплощённый ИИ. Хотя недавние подходы на основе MLLM продемонстрировали большой потенциал для синтеза 3D-комнат по текстовым описаниям или эталонным изображениям, текстовые методы испытывают трудности с захватом точной пространственной информации, а существующие агенты, обусловленные изображениями, страдают от нестабильности и бесконечных циклов при выполнении задачи целостной генерации комнаты по видам сверху. Чтобы устранить эти ограничения, мы предлагаем Code-as-Room — агентский фреймворк на основе MLLM, оснащённый структурированной исполнительной обвязкой, который представляет 3D-комнаты с помощью кода Blender. Учитывая изображение комнаты сверху, фреймворк анализирует эталонное изображение для извлечения элементов сцены и их пространственных отношений, а затем синтезирует исполняемый код Blender для геометрии, материалов и освещения в принципиальном многоэтапном конвейере. На протяжении всего процесса поддерживается межэтапный модуль памяти, чтобы смягчить забывание контекста, присущее существующим агентским фреймворкам. Мы также представляем специализированный бенчмарк для синтеза 3D-комнат на основе кода, охватывающий различные протоколы оценки. На основе нашего бенчмарка проводятся всесторонние сравнения с существующими агентскими методами для проверки эффективности предложенной нами исполнительной обвязки.

KVPO: ODE-Native GRPO для авторегрессивного выравнивания видео посредством семантического исследования KV
KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

May 14

ByRuicheng Zhang, Kaixi Cong, Jun Zhou, Zhizhou Zhong, Zunnan Xu, Shuiyang Mao, Wei Liu, Xiu Li

Согласование потоковых авторегрессионных (AR) генераторов видео с человеческими предпочтениями является сложной задачей. Существующие методы обучения с подкреплением в основном полагаются на шумовое исследование и суррогатные политики на основе стохастических дифференциальных уравнений (СДУ), которые не соответствуют детерминистической динамике обыкновенных дифференциальных уравнений (ОДУ) дистиллированных AR-моделей и склонны возмущать низкоуровневый внешний вид, а не высокоуровневое семантическое развитие сюжета, критически важное для долгосрочной связности. Чтобы преодолеть эти ограничения, мы представляем KVPO — встроенную в ОДУ онлайн-структуру групповой относительной оптимизации политики (GRPO) для согласования потоковых генераторов видео. Для диверсификации разведки KVPO вводит каузально-семантическую парадигму разведки, которая переносит источник вариаций со стохастического шума на исторический KV-кэш. Путем стохастической маршрутизации исторических KV-записей строятся семантически разнообразные ветви генерации, которые строго остаются на многообразии данных. Для моделирования политики KVPO вводит суррогатную политику поля скорости на основе Энергии Траекторной Скорости (TVE), которая количественно оценивает вероятность ветви в пространстве скоростей согласования потока и дает контрастную целевую функцию, взвешенную по вознаграждению, полностью согласованную с исходной формулировкой ОДУ. Эксперименты на нескольких дистиллированных AR-генераторах видео демонстрируют устойчивое улучшение визуального качества, качества движения и согласования текста и видео как в режиме одиночного запроса для коротких видео, так и в режиме множественных запросов для длинных видео.

OProver: Единый фреймворк для агентного формального доказательства теорем
OProver: A Unified Framework for Agentic Formal Theorem Proving

May 17

ByDavid Ma, Kaijing Ma, Shawn Guo, Yunfeng Shi, Enduo Zhao, Jiajun Shi, Zhaoxiang Zhang, Gavin Cheung, Jiaheng Liu, Zili Wang

Недавний прогресс в формальном доказательстве теорем выиграл от крупномасштабной генерации доказательств и обучения с учётом верификатора, однако агентное доказательство редко интегрируется в обучение доказателю, появляясь лишь на этапе вывода. Мы представляем OProver — единую среду для агентного формального доказательства теорем в Lean 4, в которой неудачные попытки доказательства итеративно пересматриваются с использованием извлечённых проверенных компилятором доказательств и обратной связи компилятора Lean. OProver обучается с помощью продолженного предварительного обучения с последующим итеративным пост-обучением: каждая итерация запускает агентное доказательство, индексирует недавно проверенные доказательства в OProofs и память поиска, использует траектории исправления как данные SFT и использует нерешённые сложные случаи для RL. OProofs построен на основе общедоступных ресурсов Lean, крупномасштабного синтеза доказательств и следов агентного доказательства, содержащих 1,77 млн утверждений Lean, 6,86 млн проверенных компилятором доказательств и сериализованные траектории с извлечённым контекстом, неудачными попытками, обратной связью и исправлениями. На пяти бенчмарках OProver-32B достигает лучшего показателя Pass@32 на MiniF2F (93,3%), ProverBench (58,2%) и PutnamBench (11,3%) и занимает второе место на MathOlympiad (22,8%) и ProofNet (33,2%) — больше лучших позиций, чем любой предыдущий доказатель целых теорем с открытым весом.

MoE после обучения может пропускать половину экспертов с помощью самодистилляции
Post-Trained MoE Can Skip Half Experts via Self-Distillation

May 18

ByXingtai Lv, Li Sheng, Kaiyan Zhang, Yichen You, Siyan Gao, Xueheng Luo, Yuxin Zuo, Yuchen Fan, Junlin Yang, Ganqu Cui, Bingning Wang, Fan Yang, Youbang Sun, Ning Ding, Bowen Zhou

Смесь экспертов (MoE) масштабирует языковые модели эффективно за счет разреженной активации экспертов, а её динамический вариант дополнительно сокращает вычисления путем подстройки активируемых экспертов в зависимости от входных данных. Существующие динамические методы MoE обычно полагаются на предварительное обучение с нуля или адаптацию под конкретную задачу, оставляя практическое преобразование полностью обученных MoE-моделей недостаточно изученным. Возможность такой адаптации напрямую снизила бы затраты на инференс, позволяя простым токенам обходить ненужные эксперты во время обслуживания. В этой статье представлена адаптация с самодистилляцией нулевого эксперта (ZEDA) — малозатратная схема, преобразующая статические MoE-модели после обучения в эффективные динамические. Для стабилизации этого архитектурного преобразования ZEDA встраивает параметрически свободные нулевые эксперты в каждый слой MoE и адаптирует расширенную модель с помощью двухэтапной самодистилляции, используя исходную MoE в качестве замороженного учителя и применяя балансирующую потерю на уровне групп. На моделях Qwen3-30B-A3B и GLM-4.7-Flash по 11 бенчмаркам, охватывающим математику, код и следование инструкциям, ZEDA устраняет более 50% экспертных FLOPs при незначительной потере точности. Она превосходит сильнейший динамический базовый метод MoE на 6,1 и 4,0 балла на двух моделях и обеспечивает ускорение сквозного инференса примерно в 1,20 раза.

VideoSeeker: стимулирование понимания видео на уровне экземпляров посредством нативного вызова агентных инструментов
VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation

May 15

ByYiming Zhao, Yu Zeng, Wenxuan Huang, Zhen Fang, Qing Miao, Qisheng Su, Jiawei Zhao, Jiayin Cai, Lin Chen, Zehui Chen, Yukun Qi, Yao Hu, Xiaolong Jiang, Feng Zhao

Большие модели зрения и языка (Large Vision-Language Models, LVLMs) демонстрируют значительный прогресс в понимании видео, однако сохраняют существенные трудности при выполнении задач, требующих точной пространственно-временной локализации на уровне отдельных экземпляров. Существующие методы в основном полагаются на текстовые запросы для взаимодействия человека с моделью, но такие запросы неспособны обеспечить точные пространственные и временные ссылки, что приводит к ухудшению пользовательского опыта. Кроме того, современные подходы обычно разделяют визуальное восприятие и языковые рассуждения, выстраивая рассуждение вокруг языка, а не визуального содержания, что ограничивает способность модели проактивно воспринимать детализированные визуальные свидетельства. Для решения этих проблем мы предлагаем VideoSeeker — новую парадигму понимания видео на уровне экземпляров с помощью визуальных подсказок. VideoSeeker органично интегрирует агентные рассуждения с задачами понимания видео на уровне экземпляров, позволяя модели проактивно воспринимать и извлекать релевантные видеосегменты по запросу. Мы создали четырехэтапный полностью автоматизированный конвейер синтеза данных для эффективной генерации крупномасштабных высококачественных видеоданных на уровне экземпляров. Посредством супервизии с холодного старта и обучения с подкреплением мы внедряем в модель способность к вызову инструментов и проактивному восприятию, формируя мощную модель понимания видео. Эксперименты показывают, что наша модель достигает среднего улучшения на +13,7% по сравнению с базовыми моделями в задачах понимания видео на уровне экземпляров, превосходя мощные модели с закрытым исходным кодом, такие как GPT-4o и Gemini-2.5-Pro, а также демонстрирует эффективную переносимость на эталонных тестах общего понимания видео. Соответствующие наборы данных и код будут опубликованы.

LiteFrame: Эффективные визуальные энкодеры раскрывают масштабирование кадров в видео-LLM
LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs

May 17

ByJihwan Kim, Nikhil Parthasarathy, Danfeng Qin, Junhwa Hur, Deqing Sun, Bohyung Han, Ming-Hsuan Yang, Boqing Gong

Основная проблема масштабирования видео-больших языковых моделей (Video LLMs) для работы с длинными видеороликами заключается в управлении ростом длины контекста визуальных токенов. Существующие стратегии в основном сосредоточены на «пост-фактум» сокращении токенов – уменьшении количества визуальных токенов после извлечения признаков для снижения вычислительной нагрузки на языковую модель. Хотя эти методы эффективно сокращают число визуальных токенов, мы замечаем, что основное узкое место по задержке тогда смещается с языковой модели на дорогостоящую покадровую обработку кодировщика изображений. Для решения этой проблемы мы представляем LiteFrame – эффективный и при этом мощный видеокодировщик для Video LLMs. Для обучения LiteFrame мы предлагаем дистилляцию сжатых токенов (Compressed Token Distillation, CTD) – новую обучающую схему, которая учит компактный кодировщик изображений напрямую предсказывать информационно-насыщенные пространственно-временно сжатые представления, порождаемые большой моделью-учителем, фактически обходя избыточные вычисления. В сочетании с дальнейшей адаптацией языковой модели (Language Model Adaptation, LMA) этот подход позволяет достичь новой границы Парето по задержке и точности: по сравнению с InternVL3-8B LiteFrame обеспечивает снижение сквозной задержки на 35% при обработке в 8 раз большего числа кадров и повышает среднюю точность понимания видео по нескольким бенчмаркам. Наши результаты демонстрируют новый потенциальный путь к пониманию более длинных видеороликов при фиксированном бюджете вычислений.

Остановка при сходимости рассуждения: семантически сохраняющий досрочный выход для моделей рассуждения
Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

May 17

ByDehai Min, Giovanni Vaccarino, Huiyi Chen, Yongliang Wu, Gal Yona, Lu Cheng

Большие модели рассуждений (Large Reasoning Models, LRMs) достигают высокой производительности за счёт генерации длинных цепочек размышлений (CoT), однако часто склонны к «переусложнению», продолжая рассуждать после того, как решение уже стабилизировалось, что приводит к избыточному расходу токенов и увеличению задержки. Существующие методы досрочного выхода во время инференса в основном опираются на сигналы на уровне ответа, такие как уверенность или согласованность пробных ответов, чтобы принять решение об остановке. Однако эти сигналы отражают скорее готовность ответа, а не сходимость рассуждений: они могут сработать до того, как модель завершит исследование или самокоррекцию, вызывая преждевременный выход, который может снизить точность финального ответа и оставить сохранённую цепочку рассуждений семантически неполной. Мы выявляем семантическую избыточность на уровне рассуждений как дополнительный сигнал для семантически сохраняющего досрочного выхода: когда последовательные шаги больше не добавляют нового прогресса, а возвращаются к уже установленным выводам, траектория рассуждений, вероятно, сошлась. Основываясь на этом понимании, мы предлагаем PUMA — подключаемую (plug-and-play) структуру, которая объединяет лёгкий детектор избыточности с верификацией на уровне ответа. Детектор отмечает семантически избыточных кандидатов для выхода, а верификация подтверждает, безопасно ли останавливаться, что позволяет PUMA удалить избыточное продолжение, сохраняя при этом точность ответа и связный префикс рассуждений. На пяти LRM и пяти сложных эталонных наборах данных для рассуждений PUMA достигает в среднем 26,2% сокращения токенов при сохранении точности и качества удержанной CoT. Дополнительные эксперименты по генерации кода, нуль-шотному визуально-языковому рассуждению и интернализации изученной политики остановки показывают, что семантическая избыточность на уровне рассуждений является надёжным, переносимым и обучаемым сигналом для эффективного рассуждения. Наш код доступен по адресу: https://github.com/giovanni-vaccarino/PUMA.

Измерение максимальных активаций в открытых больших языковых моделях
Measuring Maximum Activations in Open Large Language Models

May 15

ByLuxuan Chen, Han Tian, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin

Динамический диапазон активаций представляет собой ограничение первого порядка для низкобитного квантования, масштабирования активаций и стабильного вывода LLM. Предшествующие работы характеризовали выбросные признаки и массивные активации в моделях LLaMA-стиля, выпущенных до 2024 года, и последующий стек квантования активаций наследует эту картину, не пересматривая её в контексте бума открытых моделей после LLaMA. Мы задаём вопрос, ориентированный на развертывание: насколько большими могут быть активации в современных открытых LLM, и как эта величина варьируется между семействами, поколениями и стадиями обучения? Используя единый конвейер (корпус из 5000 образцов из нескольких доменов, токенизация, специфичная для семейства, идентичные точки подсоединения для эмбеддингов, скрытых состояний, внимания, MLP/MoE, вентилей SwiGLU и конечной нормализации), мы измеряем глобальные и послойные максимумы на 27 контрольных точках из 8 открытых семейств, охватывающих плотные, MoE, зрительно-языковые, промежуточного обучения и настроенные на инструкции варианты. Мы обнаруживаем, что (i) глобальные максимумы охватывают почти четыре порядка величины при сравнимых количествах параметров, при этом Qwen3.5 и контрольные точки MoE находятся в диапазоне от 10^2 до 10^3, а Gemma3-27B-it достигает ~7 × 10^5; (ii) межсемейные и межпоколенческие сравнения нарушают простую монотонную масштабируемость; (iii) контрольные точки MoE демонстрируют пики в 14,0–23,4 раза ниже, чем у аналогов плотной архитектуры с сопоставимым масштабом, при этом остаточный поток несёт глобальный максимум в 22 из 24 контрольных точек. Легковесная проверка INT-8 показывает, что измеренные максимумы совместно варьируются с ошибкой низкобитной реконструкции через выбор масштаба активаций. Мы заключаем, что величина максимальной активации является свойством модели, связанным с семейством, архитектурой и стадией обучения — а не простым побочным продуктом размера — и должна измеряться и сообщаться вместе с любым выпуском открытых весов перед низкобитным развертыванием. Код общедоступен по адресу https://github.com/clx1415926/Max_act_llm.

StableVLA: К робастным моделям зрения-языка-действия без дополнительных данных
StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

May 18

ByYiyang Fu, Chubin Zhang, Shukai Gong, Yufan Deng, Kaiwei Sun, Qiyang Min, Qibin Hou, Yansong Tang, Jianan Wang, Daquan Zhou

Обучение на всех возможных возмущениях в рамках набора данных нецелесообразно. Это поднимает критический вопрос об устойчивости моделей зрительно-языковых-действий (VLA) при столкновении с невидимыми ранее реальными визуальными искажениями, особенно в условиях несовершенного восприятия. В данной работе мы проводим систематическое исследование на основе современных моделей VLA и выявляем значительное падение производительности при внесении визуальных возмущений, отсутствующих в обучающих данных. Для смягчения этой проблемы мы предлагаем легковесный модуль адаптера, основанный на теории информации, — Адаптер информационного узкого горлышка (IB-Adapter), который избирательно отфильтровывает потенциальный шум из визуальных входных данных. Не требуя ни дополнительных данных, ни стратегий аугментации, IB-Adapter стабильно превосходит базовую модель в среднем на 30%, добавляя при этом менее 10 миллионов параметров, что демонстрирует его заметную эффективность и результативность. Более того, даже с в 14 раз меньшей базовой моделью (0,5 млрд параметров) и без предварительного обучения на наборе данных Open X-Embodiment наша модель StableVLA достигает устойчивости, сопоставимой с современными VLA-моделями уровня 7 млрд параметров. При минимальных накладных расходах по параметрам (<10 млн) наш подход сохраняет точность на долгосрочных задачах и превосходит OpenPi как в условиях синтетических, так и физических визуальных искажений.

EndPrompt: Эффективное расширение длинного контекста посредством терминального закрепления
EndPrompt: Efficient Long-Context Extension via Terminal Anchoring

May 14

ByHan Tian, Luxuan Chen, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Jinman Zhao, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin

Расширение окна контекста больших языковых моделей обычно требует обучения на последовательностях целевой длины, что сопряжено с квадратичными затратами памяти и вычислений, делающими долгоконтекстную адаптацию дорогостоящей и трудно воспроизводимой. Мы предлагаем EndPrompt — метод, обеспечивающий эффективное расширение контекста с использованием только коротких обучающих последовательностей. Ключевая идея заключается в том, что для ознакомления модели с дальними относительными позиционными расстояниями не требуется конструировать полноразмерные входные данные: мы сохраняем исходный короткий контекст как нетронутый первый сегмент и добавляем краткий терминальный промпт в качестве второго сегмента, назначая ему позиционные индексы, близкие к целевой длине контекста. Такая двухсегментная конструкция вводит как локальные, так и дальние относительные расстояния в рамках короткой физической последовательности, сохраняя при этом семантическую непрерывность обучающего текста — свойство, отсутствующее в методах чанковой симуляции, разбивающих непрерывный контекст. Мы предоставляем теоретический анализ, основанный на вращательном позиционном кодировании и неравенстве Бернштейна, показывающий, что интерполяция позиций накладывает строгое ограничение гладкости на функцию внимания, а общие параметры Transformer дополнительно подавляют нестабильную экстраполяцию на ненаблюдаемые промежуточные расстояния. Применённый к моделям семейства LLaMA, расширяющим окно контекста с 8K до 64K, EndPrompt достигает среднего показателя RULER 76.03 и наивысшего среднего показателя на LongBench, превосходя LCEG (72.24), LongLoRA (72.95) и полноразмерную тонкую настройку (69.23) при значительно меньших вычислительных затратах. Эти результаты демонстрируют, что обобщение на длинный контекст может быть индуцировано разреженным позиционным контролем, ставя под сомнение преобладающее предположение о необходимости плотного обучения на длинных последовательностях для надёжного расширения окна контекста. Код доступен по адресу https://github.com/clx1415926/EndPrompt.

Адаптивная к модели необходимость инструментов раскрывает разрыв между знанием и действием в использовании инструментов LLM
Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

May 13

ByYize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feiz

Большие языковые модели (LLM) все чаще выступают в роли автономных агентов, которым необходимо решать, когда отвечать напрямую, а когда обращаться к внешним инструментам. Предыдущие работы, изучающие адаптивное использование инструментов, в основном рассматривали необходимость инструментов как модельно-независимое свойство, аннотированное человеком или LLM-судьей, и охватывали в основном случаи, где ответ очевиден (например, получение прогноза погоды против перефразирования текста). Однако необходимость инструментов в реальных условиях более тонка из-за расхождения границ возможностей разных моделей: задача, решаемая сильной моделью самостоятельно, может все еще требовать инструментов для более слабой. В этой работе мы вводим модельно-адаптивное определение необходимости инструментов, основанное на эмпирической производительности каждой модели. Следуя этому определению, мы сравниваем необходимость с наблюдаемым поведением вызова инструментов на четырех моделях на наборах данных по арифметике и фактическим вопросам-ответам и обнаруживаем существенные несоответствия в 26,5–54,0% и 30,8–41,8% соответственно. Чтобы диагностировать сбой, мы разлагаем использование инструментов на два этапа: этап внутреннего познания, отражающий, считает ли модель инструмент необходимым, и этап выполнения, определяющий, совершает ли модель фактическое действие вызова инструмента. Путем зондирования скрытых состояний LLM мы обнаруживаем, что оба сигнала часто линейно декодируемы, однако направления их зондов становятся почти ортогональными в режиме позднего слоя последнего токена, который управляет действием следующего токена. Прослеживая траекторию выборок в двухэтапном процессе, мы далее обнаруживаем, что большая часть несоответствия сосредоточена в переходе от познания к действию, а не в самом познании. Эти результаты выявляют разрыв между знанием и действием в использовании инструментов LLM: повышение надежности использования инструментов требует не только лучшего распознавания того, когда инструменты необходимы, но и лучшего перевода этого распознавания в действие.

AstraFlow: Потоко-ориентированное обучение с подкреплением для агентных LLM
AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

May 15

ByHaizhong Zheng, Yizhuo Di, Jiahui Wang, Shuowei Jin, Xueshen Liu, Yongji Wu, Z. Morley Mao, Ion Stoica, Jiawei Zhao, Beidi Chen

Обучение с подкреплением (RL) все чаще применяется для улучшения способностей больших языковых моделей к рассуждению, написанию кода и использованию инструментов, однако агентное RL остается запретительно дорогим. Масштабирование RL на агентные LLM требует поддержки сложных рабочих нагрузок, включая совместное обучение с несколькими политиками, при эффективном использовании эластичных, гетерогенных и межрегиональных вычислительных ресурсов. Существующие системы RL для LLM поддерживают некоторые из этих возможностей, но каждое новое расширение часто требует специальной системной инженерии. Это бремя возникает из-за архитектур управления, ориентированных на тренер, и отсутствия принципиальных абстракций для компонентов системы RL. Для устранения этих ограничений мы предлагаем AstraFlow — ориентированную на потоки данных систему RL, которая заменяет традиционное управление, ориентированное на тренер, принципиальными абстракциями компонентов. В AstraFlow сервисы развертывания, управление потоками данных и обучение разделены на автономные компоненты, что позволяет системе изначально поддерживать сложные агентные рабочие нагрузки с несколькими политиками и эффективно использовать разнообразные вычислительные ресурсы. Мы оцениваем AstraFlow на рабочих нагрузках по математике, коду, поиску и AgentBench, показывая, что одна и та же система поддерживает многополитическое обучение, эластичное масштабирование, гетерогенное межрегиональное выполнение и компоновку алгоритмов данных без изменений системного кода. При совместном обучении с несколькими политиками AstraFlow достигает сопоставимой или лучшей точности по сравнению с существующими системами RL, одновременно ускоряя время обучения в 2,7 раза.

Где должна входить диффузия в языковую модель? Замена скрытых состояний, направляемая геометрией
Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

May 14

ByInjin Kong, Hyoungjoon Lee, Yohan Jo

Модели непрерывной диффузии в языковых задачах уступают авторегрессионным трансформерам, отчасти потому, что диффузия применяется в пространствах, плохо приспособленных для шумоподавления и восстановления токенов. Мы предлагаем DiHAL — гибрид диффузии и трансформера, управляемый геометрией, который позволяет определить, на каком этапе диффузия должна войти в предобученный трансформер. DiHAL оценивает слои с помощью геометрических прокси, выбирает дружественное к диффузии скрытое состояние в качестве интерфейса и заменяет нижнюю часть трансформера диффузионным мостом, сохраняя верхние слои и исходную языковую голову. Восстанавливая скрытое состояние выбранного слоя, а не токены, DiHAL избегает прямого перехода от непрерывного к дискретному. Эксперименты на моделях размером 8B показывают, что геометрическая оценка предсказывает эффективные мелкие встраиваемые слои при фиксированном протоколе обучения моста, а восстановление скрытого состояния превосходит базовые подходы непрерывной диффузии в сравнительном анализе, согласованном по бюджету обучения диффузии/восстановления. Эти результаты позволяют предположить, что геометрия скрытого состояния помогает определить, где в предобученных языковых моделях возможна замена на основе диффузии.

Целевая модуляция нейронов посредством поиска контрастивных пар
Targeted Neuron Modulation via Contrastive Pair Search

May 12

BySam Herring, Jake Naviasky, Karan Malhotra

Языковые модели настраиваются с помощью инструкций для отказа от вредоносных запросов, однако механизмы, лежащие в основе этого поведения, остаются плохо изученными. Популярные методы управления работают с остаточным потоком и ухудшают связность вывода при высоких уровнях вмешательства, что ограничивает их практическое применение. Мы представляем контрастивную атрибуцию нейронов (CNA), которая идентифицирует 0,1% MLP-нейронов, чьи активации наиболее различают вредоносные и безвредные запросы, требуя только прямых проходов без градиентов или вспомогательного обучения. В инструктивных моделях абляция обнаруженной схемы снижает показатели отказа более чем на 50% на стандартном джейлбрейк-бенчмарке, сохраняя при этом беглость и невырожденность при всех уровнях управления. Применяя CNA к сопоставленным базовым и инструктивным моделям в архитектурах Llama и Qwen (от 1 млрд до 72 млрд параметров), мы обнаруживаем, что базовые модели содержат сходные структуры дискриминации на поздних слоях, однако управление этими нейронами приводит только к смещениям содержания, а не к поведенческому изменению. Эти результаты демонстрируют, что вмешательство на уровне нейронов обеспечивает надежное управление поведением без компромиссов по качеству, присущих методам, основанным на остаточном потоке. В более широком смысле наши результаты указывают на то, что тонкая настройка выравнивания преобразует предсуществующую структуру дискриминации в разреженный целенаправленный отказной затвор.

CompactAttention: ускорение чанкового префилла с помощью блочно-объединённого выбора KV
CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

May 16

ByJiwon Song, Dongwon Jo, Beomseok Kang, Jae-Joon Kim

Фрагментированная предварительная загрузка (chunked prefill) стала широко используемой стратегией обслуживания для больших языковых моделей с длинным контекстом, однако эффективное вычисление внимания в этом режиме остаётся сложной задачей. Существующие методы разреженного внимания в основном предназначены для однократной предварительной загрузки и неэффективно переносятся на фрагментированную предварительную загрузку: блочно-разреженные ядра теряют эффективность, когда длина запроса ограничена размером фрагмента, в то время как поиск мелкозернистых шаблонов становится затратным при повторении на накопленном KV-кэше для каждого фрагмента. QUOKA — недавний метод, непосредственно ориентированный на фрагментированную предварительную загрузку, — позволяет избежать накладных расходов разреженных ядер, но полагается на выбор KV на уровне токенов с субдискретизацией запросов, что может пропускать специфичные для запроса KV-записи и вносить явные накладные расходы на копирование KV. Для устранения этих ограничений мы предлагаем CompactAttention — механизм внимания для фрагментированной предварительной загрузки, основанный на блочно-объединённом выборе KV (Block-Union KV Selection). CompactAttention рассматривает двумерные блочно-разреженные маски как сигналы для выбора KV, а не как планы непосредственного выполнения разреженных ядер, и преобразует их в осведомлённые о GQA таблицы KV-блоков для каждой группы с помощью объединения Q-блоков и внутригруппового объединения. Такая конструкция создаёт минимальные таблицы блоков, которые сохраняют все KV-блоки, выбранные входными масками, с учётом ограничений постраничного выполнения, что позволяет обращаться к выбранным KV-блокам на месте без явного уплотнения KV. На модели LLaMA-3.1-8B-Instruct CompactAttention сохраняет точность, близкую к точности плотного внимания на бенчмарке RULER, обеспечивая при этом ускорение внимания до 2,72 раза при длине контекста 128K в режиме фрагментированной предварительной загрузки.

От работоспособного к готовому к поставке: Многоагентная разработка через тестирование для генерации полнофункциональных веб-приложений на основе требований
From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements

May 17

ByYuxuan Wan, Tingshuo Liang, Jiakai Xu, Jingyu Xiao, Yintong Huo, Michael R Lyu

Кодовые агенты могут генерировать веб-приложения на основе описаний на естественном языке, однако недавнее эталонное исследование показывает, что сгенерированные приложения не соответствуют функциональным требованиям более чем в 70% случаев. Основная сложность заключается в том, что корректность веб-приложения невозможно оценить по исходным файлам или выводу терминала: приложение должно быть развернуто, протестировано с помощью симулированных взаимодействий с браузером, а ошибки должны быть преобразованы в пригодные для исправления сигналы — шаги, которые текущие агенты не могут выполнить без участия человека. Мы представляем TDDev — фреймворк, автоматизирующий этот замкнутый цикл посредством трех этапов: (1) преобразование требований высокого уровня в структурированные приемочные тесты до написания какого-либо кода, (2) развертывание приложения и его валидация с помощью симуляции взаимодействия через браузер, и (3) преобразование наблюдаемых в браузере ошибок в структурированные отчеты об исправлении для кодового агента. Благодаря TDDev мы проводим первое контролируемое эмпирическое исследование стратегий разработки через тестирование (TDD) для генерации веб-приложений, сравнивая четыре протокола разработки с использованием двух кодовых агентов, двух базовых моделей и двух бенчмарков. Инфраструктура TDD последовательно повышает качество генерации на 34–48 процентных пункта по сравнению с базовым уровнем без TDD. Центральный вывод состоит в том, что оптимальный протокол зависит от стиля генерации модели: модели, которые строят приложения целостно, больше всего выигрывают от агентного принуждения, в то время как модели, которые консервативно расширяют код, выигрывают от пошагового принуждения. Несоответствие протокола стилю генерации полностью устраняет преимущество TDD, при этом увеличивая затраты токенов до 25 раз. Исследование с участием пользователей подтверждает, что TDDev сводит ручное вмешательство разработчика к нулю, перемещая рабочую нагрузку с непрерывного инжиниринга промптов на автономное уточнение, управляемое обратной связью.

NGM: Модуль памяти для LLM, не требующий обучения и работающий по принципу plug-and-play
NGM: A Plug-and-Play Training-Free Memory Module for LLMs

May 16

ByYuwen Qu, Wenhui Dong, Chenyang Si, Caifeng Shan

Недавние исследования представляют модули условной памяти, которые разделяют хранение знаний и нейронные вычисления, обеспечивая более прямой доступ к знаниям. По сравнению со смесью экспертов (MoE), опирающейся на динамические вычислительные пути, прямой поиск предлагает более эффективный механизм извлечения знаний. Однако такие подходы по-прежнему зависят от обученных вложений памяти, что требует дополнительного обучения и ограничивает гибкость. Для решения этой проблемы мы предлагаем N-граммную память (NGM) — не требующий обучения подключаемый модуль, состоящий из причинного N-граммного кодера (Causal N-Gram Encoder) и инжектора памяти с косинусным гейтом (Cosine-Gated Memory Injector). Причинный N-граммный кодер напрямую усредняет предобученные вложения токенов базовой модели для построения N-граммных представлений, тем самым устраняя необходимость в отдельном обучении N-граммных вложений с нуля. Такая конструкция не требует ни дополнительной таблицы памяти, ни конвейера поиска. Затем инжектор памяти с косинусным гейтом использует непараметрический косинусный гейт с ReLU для модуляции извлеченных вложений в контекстные представления. Мы оцениваем NGM на серии моделей Qwen3 от 0,6B до 14B по восьми бенчмаркам. NGM улучшает среднюю производительность на 0,5–1,2 балла, причем особенно заметные улучшения наблюдаются в задачах генерации кода и задачах, требующих знаний (например, +3,0 на LiveCodeBench и +3,03 на GPQA для Qwen3-14B). Кроме того, NGM также повышает производительность в мультимодальных бенчмарках (например, MMStar +1,53 на Qwen3-VL-2B).

WavFlow: Генерация аудио в пространстве сигналов
WavFlow: Audio Generation in Waveform Space

May 18

ByFeiyan Zhou, Luyuan Wang, Shoufa Chen, Zhe Wang, Zhiheng Liu, Yuren Cong, Xiaohui Zhang, Fanny Yang, Belinda Zeng

Современная генерация аудио в значительной степени опирается на сжатие в скрытом пространстве, что вносит дополнительную сложность и потенциальную потерю информации. В данной работе мы оспариваем эту парадигму с помощью WavFlow — фреймворка, который генерирует высококачественное аудио непосредственно в пространстве сырых волновых форм без промежуточных представлений. Чтобы преодолеть inherentные трудности моделирования высокоразмерных и низкоэнергетических сигналов, мы преобразуем аудио в двумерные сетки токенов через пачфикацию волновых форм и вводим амплитудное поднятие для выравнивания шкал сигналов, обеспечивая стабильную оптимизацию посредством прямого предсказания x в согласовании потоков. Для захвата сложного семантического выравнивания и временной синхронизации мы используем автоматизированный конвейер данных для курирования 5 миллионов высококачественных троек видео-текст-аудио, позволяя модели изучать мелкозернистые акустические паттерны с нуля. Экспериментальные результаты показывают, что WavFlow достигает конкурентоспособной производительности на бенчмарке видео-в-аудио VGGSound (FD_PaSST: 59,98, IS_PANNs: 17,40, DeSync: 0,44) и бенчмарке текст-в-аудио AudioCaps (FD_PANNs: 10,63, IS_PANNs: 12,62), соответствуя или превосходя производительность установленных методов на основе скрытых представлений. Наша работа демонстрирует, что промежуточное сжатие не является предпосылкой для высококачественного синтеза, предлагая более простую и более масштабируемую альтернативу для мультимодальной генерации аудио.

TOBench: Задачно-ориентированный омнимодальный бенчмарк для агентов, использующих инструменты в реальном мире
TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

May 16

ByZhiqiang Liu, Wenhui Dong, Yilang Tan, Yuwen Qu, Haochen Yin, Chenyang Si

Инструментальные агенты всё чаще проектируются для работы в реалистичных профессиональных процессах, где им необходимо интерпретировать мультимодальные входные данные, координировать внешние инструменты, проверять промежуточные артефакты и корректировать свои действия перед формированием конечного результата. Однако существующие бенчмарки зачастую оценивают использование инструментов, взаимодействие с компьютером и мультимодальные рассуждения изолированно, что создаёт разрыв между условиями тестирования и сквозным омни-модальным использованием инструментов в реальном мире. Для устранения этого разрыва мы представляем MM-ToolBench — бенчмарк и среду оценки для целеориентированного омни-модального применения инструментов. MM-ToolBench включает 100 исполняемых задач из двух макрокатегорий: «Клиентская поддержка» и «Интеллектуальное творчество», охватывая 20 подкатегорий и поддерживаемых 27 MCP-серверами с 324 инструментами. Ключевая особенность MM-ToolBench — замкнутая мультимодальная верификация: агенты должны выполнять инструменты, анализировать результирующие или преобразованные артефакты и самостоятельно исправлять ошибки, когда результаты не соответствуют требованиям задачи. Для масштабируемой и проверяемой оценки MM-ToolBench объединяет выполнение на основе MCP с целевыми обоснованными оценщиками и полуавтоматическим конвейером для обнаружения сценариев, инстанцирования задач, синтеза оценщиков и человеческой валидации. Эксперименты с 15 современными агентными моделями показывают, что MM-ToolBench остаётся крайне сложным: Claude Opus 4.6, часто считающийся одной из сильнейших моделей-агентов для программирования, достигает лишь 32,0% успешности выполнения задач, что значительно ниже 94,0% у человека. Мы видим MM-ToolBench как практическую основу для оценки и развития следующего поколения омни-модальных инструментальных агентов через замкнутую мультимодальную верификацию.

AtlasVA: саморазвивающаяся визуальная память навыков для агентов VLM без учителя
AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents

May 18

ByPan Wang, Yihao Hu, Xiujin Liu, Jingchu Yang, Hang Wang, Zhihao Wen

Агенты на основе моделей "зрение-язык" (VLM) всё чаще используют обучение с подкреплением с дополненной памятью для повторного использования опыта в долгосрочных задачах, однако большинство существующих фреймворков хранят память в виде текста и полагаются на проприетарные модели-учителя для её обобщения или уточнения. Такая архитектура плохо подходит для пространственного принятия решений: геометрические априорные данные сжимаются в неточный язык, а разреженное взаимодействие часто управляется через отсроченную текстовую обратную связь, а не через плотные визуально обоснованные сигналы. Мы утверждаем, что повторно используемый опыт для VLM-агентов должен оставаться визуально обоснованным. Исходя из этого, мы предлагаем AtlasVA — фреймворк визуальной памяти навыков без учителя, который организует память в три взаимодополняющих слоя: пространственные тепловые карты, визуальные примеры и символьные текстовые навыки. AtlasVA дополнительно формирует атласы опасности и сродства непосредственно на основе статистики траекторий и легковесных эвристик на сетке, а затем использует эти самообучающиеся атласы в качестве потенциал-основанных формирующих вознаграждений для обучения с подкреплением. Это объединяет восприятие, память и оптимизацию без внешнего управления со стороны LLM. Эксперименты на бенчмарках Sokoban, FrozenLake, 3D-воплощённой навигации и 3D-роботизированного манипулирования показывают, что AtlasVA последовательно превосходит текстоцентричные базы памяти и конкурентоспособные VLM-агенты, особенно сильно выигрывая в пространственно интенсивных задачах. Домашняя страница: https://wangpan-ustc.github.io/AtlasvaWeb

MixSD: Смешанная Контекстуальная Самодистилляция для Инъекции Знаний
MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

May 16

ByJiarui Liu, Lechen Zhang, Yongjin Yang, Yinghui He, Yingheng Wang, Weihao Xuan, Zhijing Jin, Mona Diab

Контролируемая тонкая настройка (SFT) широко используется для внедрения новых знаний в языковые модели, однако она часто ухудшает предобученные способности, такие как рассуждение и производительность на общих предметных областях. Мы утверждаем, что это забывание возникает из-за того, что целевые сигналы от людей или внешних систем расходятся с авторегрессионным распределением модели, вынуждая оптимизатор имитировать последовательности токенов с низкой вероятностью. Для решения этой проблемы мы предлагаем MixSD — простой метод без внешнего учителя для согласованного с распределением внедрения знаний. Вместо обучения на фиксированных целях MixSD динамически формирует контрольный сигнал путем смешивания токенов из двух условных распределений самой базовой модели: экспертного условного, учитывающего вводимый факт в контексте, и наивного условного, отражающего исходный априорный приор модели. Получающиеся последовательности контрольного сигнала сохраняют сигнал обучения фактам, оставаясь при этом существенно ближе к распределению базовой модели. Мы оцениваем MixSD на двух синтетических корпусах, созданных для изучения воспроизведения фактов и усвоения арифметических функций в контролируемых условиях, а также на общепринятых эталонных тестах для вопросно-ответных систем по открытым фактам и редактирования знаний. На нескольких масштабах моделей и в различных условиях MixSD последовательно достигает лучшего компромисса между запоминанием и сохранением по сравнению с SFT и базовыми методами самодистилляции на политике, сохраняя до 100% отложенной способности базовой модели при почти идеальной точности обучения, тогда как стандартная SFT сохраняет всего 1%. Мы также показываем, что MixSD генерирует контрольные сигналы с существенно более низкой отрицательной логарифмической вероятностью (NLL) в рамках базовой модели и уменьшает вредное движение вдоль чувствительных по Фишеру направлений параметров. Эти результаты свидетельствуют о том, что согласование контрольного сигнала с исходным генеративным распределением модели является простым и эффективным принципом внедрения знаний, смягчающим катастрофическое забывание.

MementoGUI: Обучение агентному мультимодальному управлению памятью для долгосрочных GUI-агентов
MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

May 18

ByZiyun Zeng, Hang Hua, Bocheng Zou, Mu Cai, Rogerio Feris, Jiebo Luo

Недавние GUI-агенты достигли значительного прогресса в визуальной привязке и прогнозировании действий, однако они остаются нестабильными при выполнении долгосрочных задач, требующих поддержания состояния задачи при множестве переходов между интерфейсами. Существующие агенты обычно полагаются на сырое воспроизведение истории или только текстовую память, что либо перегружает модель избыточными скриншотами, либо отбрасывает локализованные визуальные свидетельства, необходимые для будущих решений. Для устранения этих ограничений мы представляем MementoGUI — подключаемую агентную структуру памяти, которая оснащает GUI-агентов на основе MLLM ядром MementoCore — обучаемым контроллером для онлайн-выбора, сжатия и извлечения памяти. Вместо того чтобы трактовать историю взаимодействий как фиксированный контекст, MementoGUI формулирует долгосрочное управление GUI как задачу онлайн-контроля памяти: рабочая память выборочно сохраняет релевантные задаче события интерфейса с текстовыми сводками и визуальными свидетельствами на уровне ROI, а эпизодическая память извлекает повторно используемые прошлые траектории с помощью обучаемого выбора релевантности. MementoCore модульно организует управление памятью в специализированные операторы для пошаговой обработки, сжатия памяти, эпизодической записи и эпизодического выбора, обеспечивая подключаемое расширение памяти без дообучения базового агента GUI. Мы также разрабатываем масштабируемый конвейер подготовки данных, преобразующий траектории использования компьютера в обучающие данные для контроллера памяти, представляем MementoGUI-Bench для оценки долгосрочного принятия решений в GUI-агентах и создаём метрики на основе MLLM для семантического сопоставления действий, прогресса задачи и согласованности памяти. Эксперименты на GUI-Odyssey, MM-Mind2Web и MementoGUI-Bench показывают, что MementoGUI последовательно улучшает GUI-агентов по сравнению с базовыми подходами без истории, с воспроизведением истории и только текстовой памятью, при этом увеличение размера ядра MementoCore дополнительно усиливает управление GUI с поддержкой памяти.

FINESSE-Bench: Иерархический набор тестов для оценки знаний в финансовой области и технического анализа в больших языковых моделях
FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models

May 14

ByDmitry Stanishevskii, Nini Kamkia, Alexey Khoroshilov, Dmitry Zmitrovich, Denis Kokosinskii, Zhirayr Hayrapetyan, Andrei Kalmykov

Большие языковые модели (LLM) все активнее применяются в финансовом анализе, составлении отчетов, поддержке инвестиционных решений, управлении рисками, комплаенсе и профессиональном обучении. Однако надежная оценка их компетентности в области финансов остается неполной. Широко используемые открытые бенчмарки, такие как FinQA, ConvFinQA и TAT-QA, сыграли важную роль в развитии финансовых вопросно-ответных систем и численных рассуждений, но они в первую очередь ориентированы на ответы на вопросы по финансовой отчетности и не предусматривают явной иерархии профессиональной сложности. Более обширные ресурсы, включая FinanceBench, PIXIU, FinBen и FLaME, расширяют охват финансовых задач, однако проблема оценки перехода от фундаментальных знаний к экспертному уровню финансовых рассуждений остается открытой. В данной работе мы представляем FINESSE-Bench — набор из восьми специализированных бенчмарков, содержащий 3 993 вопроса для иерархической оценки финансовых компетенций LLM. FINESSE-Bench объединяет наборы данных экзаменационной направленности, вдохновленные профессиональными сертификациями (CFA-подобные уровни 1–3, CMT-подобный уровень 2 и CFTe-подобный уровень 1), прикладные коллекции торговых задач, а также русскоязычный олимпиадный бенчмарк. Такая структура позволяет оценивать широту предметной области, ухудшение производительности по мере роста сложности, способность решать вычислительные задачи и поведение модели в специализированных финансовых областях. Мы также описываем единый протокол оценки, охватывающий вопросы с множественным выбором, числовые ответы и краткие открытые ответы, совместно с автоматизированной схемой оценки свободно формулируемых ответов на основе парадигмы LLM-как-судья. FINESSE-Bench предназначен как для дополнения существующих открытых финансовых бенчмарков, так и в качестве инструмента для более содержательной оценки профессионально значимых финансовых компетенций больших языковых моделей.

Agent Bazaar: Обеспечение экономической согласованности в многоагентных торговых площадках
Agent Bazaar: Enabling Economic Alignment in Multi-Agent Marketplaces

May 17

BySeth Karten, Cameron Crow, Chi Jin

Развертывание больших языковых моделей (БЯМ) в качестве автономных экономических агентов влечет за собой системные риски, выходящие за рамки индивидуальных сбоев в производительности. По мере того как агенты переходят к прямому взаимодействию с торговыми площадками, их коллективное поведение может усиливать волатильность и маскировать обман в масштабе. Мы представляем Agent Bazaar — мультиагентную среду симуляции для оценки экономической согласованности, то есть способности агентных систем поддерживать стабильность и целостность рынка. Мы выявляем два режима отказа: (1) алгоритмическая нестабильность на рынке B2C («Обвал»), когда фирмы усиливают ценовую волатильность до полного краха рынка, и (2) сивилловский обман на рынке C2C («Рынок лимонов»), когда один обманный агент, контролирующий несколько скоординированных идентичностей продавцов, наводняет рынок мошенническими объявлениями, подрывая доверие и благосостояние потребителей. Мы оцениваем передовые модели и модели с открытыми весами в обоих сценариях и обнаруживаем, что модели в значительной степени не способны к саморегуляции, причем степень тяжести сбоев варьируется в зависимости от модели, а не от её размера. Мы предлагаем экономически согласованные обвязки — стабилизирующие фирмы и скептических хранителей, которые улучшают результаты, но остаются хрупкими в более жестких рыночных условиях. Для устранения этого разрыва мы обучаем агентов с помощью REINFORCE++ с использованием адаптивной учебной программы, что дает модель на 9 миллиардов параметров, превосходящую все оцененные передовые модели и модели с открытыми весами. Мы предлагаем оценку экономической согласованности (ЭСС) — скалярную метрику из четырех компонентов, агрегирующую стабильность, целостность, благосостояние и прибыльность, что позволяет проводить прямое сравнение между моделями. Наши результаты показывают, что экономическая согласованность ортогональна общей производительности и может быть напрямую обучена с помощью целенаправленного обучения с подкреплением.

DexHoldem: Игра в Техасский Холдем с помощью ловкой воплощённой системы
DexHoldem: Playing Texas Hold'em with Dexterous Embodied System

May 18

ByFeng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma

Оценка воплощенных систем на реальном ловком оборудовании требует не просто изолированных примитивных навыков: агент должен воспринимать изменяющуюся сцену на столе, выбирать контекстно-соответствующее действие, выполнять его с помощью ловкой руки и оставлять сцену пригодной для последующих решений. Мы представляем DexHoldem — эталонный тест системного уровня для реального мира, построенный на основе ловкой манипуляции в Техасском Холдеме с использованием ShadowHand. DexHoldem предоставляет 1 470 телеуправляемых демонстраций по 14 примитивам манипуляции в Техасском Холдеме, стандартизированный эталон физического управления и эталон агентного восприятия, проверяющий, способны ли агенты восстанавливать структурированное состояние игры, необходимое для воплощенного принятия решений. В выполнении примитивов π_{0.5} достигает наивысшей частоты завершения задач (61,2%), в то время как π_{0.5} и π_0 делят лидерство по показателю сохранения сцены (47,5%). В агентном восприятии Opus 4.7 демонстрирует наилучшую строгую точность на уровне задач (34,3%), а GPT 5.5 — наилучшую среднюю точность по полям (66,8%), что выявляет разрыв между изолированными визуальными подспособностями и полным восстановлением состояния, релевантным маршрутизации. Наконец, мы реализуем полный цикл воплощенного агента в трех тематических исследованиях, где ожидание, диспетчеризация восстановления, запросы помощи от человека и повторное выполнение примитивов показывают, как ошибки восприятия и политики накапливаются в ходе замкнутого развертывания. Таким образом, DexHoldem оценивает ловкое выполнение действий на столе, агентное восприятие и воплощенную маршрутизацию решений в единой физической среде. Страница проекта: https://dexholdem.github.io/Dexholdem/.

Заклинание: естественный язык как интерфейс действий для многосущностных видеомоделей мира
Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models

May 18

ByShangwen Zhu, Qianyu Peng, Zhao Pu, Zhilei Shu, Xiangrui Ke, Zhaohu Xing, Zizhao Tong, Zeqing Wang, Xinyu Cui, Huangji Wang, Jian Zhao, Yeying Jin, Fan Cheng, Ruili Feng

Современные интерактивные видеомировые модели достигли впечатляющей визуальной точности, однако им недостает детального управления множеством сущностей и обобщения между сущностями и мирами. Мы связываем этот пробел с интерфейсом действий: стандартные протоколы управления (например, идентификаторы анимации, ввод с устройств, подписи на уровне сцены) привязывают семантику действий к конкретным сущностям или движкам на этапе проектирования. Мы предлагаем естественный язык в качестве интерфейса для раскрытия выразительности, недоступной ни одному предыдущему интерфейсу, и представляем Incantation — первую интерактивную видеомировую модель с естественно-языковым кондиционированием на каждый латентный кадр (0,25 с), которая поддерживает одновременное управление несколькими сущностями и концептуальный перенос между сущностями за пределами любого фиксированного конвейера рендеринга. Мы объединяем предобученный двунаправленный видеобэкбон с покадровым перекрестным вниманием к тексту и обеспечиваем потоковую передачу в реальном времени с длинным горизонтом с помощью дистилляции Self-Forcing, инициализированной ОДУ, с развязанным по RoPE скользящим KV-кэшем. Мы превосходим базовый уровень Action-Index по переносу между сущностями (89% против 43%) и запросам вне словаря (90% против 0%), а наша двухшаговая студенческая модель поддерживает 19,7 кадров/с при разрешении 480p со стабильным FVD в течение двухчасовых прогонов. Мы также применяем ту же архитектуру и методику обучения к The King of Fighters, изменяя только слоты словаря действий для каждой сущности. Мы опубликовали предварительный поднабор набора данных Incantation по адресу https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, содержащий вручную собранные клипы боев игрока с боссом из Elden Ring со структурированными метаданными, ориентированными на действия. Данные большего масштаба по Elden Ring и KOF будут опубликованы вместе с полным проектом.

Оценка соответствия когнитивного возраста в интерактивных ИИ-агентах
Evaluating Cognitive Age Alignment in Interactive AI Agents

May 18

ByYifan Shen, Jiawen Zhang, Jian Xu, Junho Kim, Ismini Lourentzou, Xu Cao, Meihuan Huang

Хотя агентный ИИ и его ключевые мультимодальные большие языковые модели (MLLM) продемонстрировали значительные успехи в языковом и визуальном мышлении в самых разных областях — от повседневной жизни до передовых научных исследований — между искусственным и человеческим интеллектом сохраняется глубокий разрыв. Несмотря на интеграцию мощных инструментов и передовых MLLM, современные ИИ-агенты часто терпят неудачу в фундаментальных, на первый взгляд простых задачах, которые ребенок может легко решить. Вдохновляясь Шкалой интеллекта Векслера для детей (WISC), мы представляем ChildAgentEval — первый психометрически обоснованный интерактивный бенчмарк для оценки когнитивного возрастного соответствия в агентах на основе MLLM. ChildAgentEval систематически сравнивает производительность рассуждений различных интерактивных агентов на основе MLLM с возрастными стадиями развития человека, выявляя, где современные системы агентного ИИ могут, а где не могут имитировать когнитивное поведение, характерное для определенного возраста.

Действенное представление мира
Actionable World Representation

May 18

ByKunqi Xu, Jitao Li, Jianglong Ye, Tianshu Tang, Isabella Liu, Sifei Liu, Xueyan Zou

Вдохновленный эмерджентным поведением больших языковых моделей, которые обобщили человеческий интеллект, исследовательское сообщество стремится к аналогичным эмерджентным способностям в мировых моделях, с акцентом на моделирование физического мира. В рамках модели физического мира объекты являются фундаментальными примитивами, составляющими физическую реальность. От людей до компьютеров, почти все, с чем мы взаимодействуем, является объектом. Эти объекты редко бывают статичными; это сущности, с которыми можно взаимодействовать, обладающие изменяющимися состояниями, определяемыми их внутренними свойствами. Хотя современные методы подходят к состояниям действия объектов либо через генерацию видео, либо через динамическую реконструкцию сцены, ни один из них не моделирует этот базовый элемент явно в унифицированной, принципиальной манере для построения представления объекта, с которым можно взаимодействовать. Мы предлагаем WorldString — нейронную архитектуру, способную моделировать многообразие состояний реальных объектов путем обучения непосредственно на облаках точек или RGB-D видеопотоках. Выступая в качестве универсального цифрового двойника, она служит фундаментальным строительным блоком для моделей физического мира; поэтому мы называем ее WorldString. Приятно, что ее полностью дифференцируемая структура обеспечивает бесшовную интеграцию с обучением политике и нейродинамикой в будущем.

SafeDiffusion-R1: Онлайн-управление вознаграждениями для безопасного пост-обучения диффузионных моделей
SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

May 18

ByKomal Kumar, Ankan Deria, Abhishek Basu, Fahad Shamshad, Hisham Cholakkal, Karthik Nandakumar

Диффузионные модели широко изучаются для удаления небезопасного контента, усвоенного в ходе предварительного обучения. Существующие методы требуют дорогостоящих размеченных данных — либо пар «небезопасный текст — безопасное изображение», либо пар негативных/позитивных изображений, что делает их непрактичными для масштабирования. Кроме того, подходы офлайн-обучения с подкреплением и контролируемой донастройки, генерирующие синтетические данные в офлайн-режиме, страдают от катастрофического забывания, ухудшая качество генерации. Мы предлагаем новую онлайн-структуру обучения с подкреплением, которая решает как проблему нехватки данных, так и деградации модели путем последующего обучения с групповой оптимизацией относительной политики (GRPO) как на негативных, так и на позитивных текстовых подсказках. Чтобы исключить необходимость тонкой настройки специализированных моделей вознаграждения за безопасность/небезопасность, мы вводим механизм управления вознаграждением, использующий неотъемлемое свойство вложений CLIP: направление текстовых представлений в сторону позитивных направлений безопасности и от негативных — в пространстве вложений. Наш онлайн-подход к политике позволяет модели учиться на разнообразных подсказках, включая явный небезопасный контент, без катастрофического забывания. Обширные эксперименты показывают, что наш метод сокращает долю нежелательного контента до 18,07% (по сравнению с 48,9% для SD v1.4) и количество обнаружений наготы до 15 (по сравнению с 646 в базовом варианте), одновременно улучшая качество композиционной генерации с 42,08% до 47,83% на GenEval. Примечательно, что эти улучшения безопасности обобщаются на внедоменные небезопасные подсказки по семи категориям вреда, достигая передового уровня без использования размеченных парных данных или настройки вознаграждения. GitHub: https://github.com/MAXNORM8650/SafeDiffusion-R1.

A2RBench: автоматическая парадигма для генерации формально верифицируемых бенчмарков абстрактного рассуждения
A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

May 17

ByQingchuan Ma, Yuexiao Ma, Yongkang Xie, Tianyu Xie, Xiawu Zheng, Rongrong Ji

Способность к абстрактному мышлению отражает интеллект LLM и их способность к обобщению, позволяющую извлекать и применять абстрактные правила. Однако точное измерение этой способности остается сложной задачей: существующие бенчмарки либо полагаются на дорогостоящую ручную разметку, что ограничивает их масштаб, либо рискуют измерять запоминание, а не подлинное рассуждение. Чтобы решить эту проблему, мы представляем автоматизированный конвейер под названием A2RBench, охватывающий генерацию, расширение, оценку и анализ. В частности, на этапе генерации LLM создают разнообразные задачи, требующие подлинного рассуждения; на этапе расширения LLM повторно используют проверенные правила и расширяют новые входные пространства для создания вариаций задач, достигая масштабирования. Однако такой процесс может вызывать галлюцинации. Чтобы устранить это, мы дополнительно создаем теоретическую основу и доказываем, что программная верификация — проверка того, что обратная операция идеально обращает прямую операцию (циклическая согласованность) — гарантирует единственное решение. В ходе обширных оценок основных LLM мы обнаруживаем: (1) Современные LLM демонстрируют фундаментальные недостатки в абстрактном мышлении, причем лучшие модели значительно уступают людям на репрезентативном подмножестве (39,8% против 68,5%). (2) Современные LLM значительно отстают от 2D и 1D по сложности генерируемых 3D-задач, что выявляет их непонимание задач высокой размерности. (3) Вопреки интуиции, входные данные с более высокой информационной сложностью могут упрощать процесс рассуждения.

OSCAR: Офлайн поворот с учётом спектральной ковариации для 2-битной квантизации KV-кэша
OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

May 18

ByZhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu

Квантование KV-кэша с разрядностью INT2 привлекательно для обслуживания LLM с длинным контекстом, однако по-прежнему сложно сделать его одновременно точным и пригодным для развёртывания. Простые вращения, такие как преобразования Адамара, уменьшают выбросы, но всё равно приводят к ухудшению качества при INT2, поскольку они не согласованы с последующим механизмом внимания. Мы предлагаем OSCAR — метод ультранизкобитного квантования KV-кэша, который оценивает ковариационные структуры, учитывающие внимание, в автономном режиме и использует их для получения фиксированных вращений и порогов отсечения при квантовании. Таким образом, он согласует KV-квантование с ковариационными структурами, которые фактически потребляются вниманием. Более того, мы не только предоставляем теоретическое обоснование, но и разрабатываем полностью развёртываемую систему OSCAR с пользовательским ядром INT2-внимания, которое остаётся совместимым со страничным обслуживанием KV-кэша и конвейерными ядрами слияния, обеспечивая бесшовную интеграцию в современные фреймворки обслуживания LLM, такие как SGLang и vLLM. Мы оцениваем наши методы на современных моделях рассуждений с цепочками рассуждений длиной до 32 тыс. токенов по 5 задачам. На Qwen3-4B-Thinking-2507 и Qwen3-8B OSCAR сокращает разницу точности с BF16 до 3,78 и 1,42 пункта соответственно, в то время как наивное INT2-вращение приводит к почти нулевой точности. Мы дополнительно масштабируем OSCAR на Qwen3-32B и GLM-4.7 (358 млрд параметров), где он остаётся практически на уровне BF16. На длинном контексте (RULER-NIAH до 128K) OSCAR остаётся устойчивым на обеих моделях Qwen3, тогда как наивное INT2-вращение приводит к коллапсу. С системной точки зрения, OSCAR уменьшает объём памяти KV-кэша примерно в 8 раз, повышает пропускную способность до 7 раз при больших размерах пакетов в условиях одного бюджета памяти и ускоряет декодирование с размером пакета 1 до 3 раз по сравнению с BF16 за счёт снижения накладных расходов на пропускную способность памяти.

AgentKernelArena: бенчмаркинг агентов оптимизации GPU-ядер с учетом обобщения
AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

May 16

BySharareh Younesian, Wenwen Ouyang, Sina Rafati, Mehdi Rezagholizadeh, Sharon Zhou, Ji Liu, Yue Liu, Yuchen Yang, Hao Li, Ziqiong Liu, Dong Li, Vikram Appia, Zhenyu Gu, Emad Barsoum

Оптимизация GPU-ядер становится все более критичной для эффективных систем глубокого обучения, однако написание высокопроизводительных ядер по-прежнему требует значительной низкоуровневой экспертизы. Современные ИИ-агенты кодирования могут итеративно читать код, вызывать компиляторы и профилировщики и уточнять реализации, однако существующие бенчмарки ядер оценивают одиночные вызовы LLM, а не полные рабочие процессы агентов, и ни один из них не включает как оптимизацию от ядра к ядру, так и тестирование обобщения на невиданные конфигурации. Мы представляем AgentKernelArena — открытый бенчмарк для оценки ИИ-агентов кодирования на задачах оптимизации GPU-ядер. Бенчмарк содержит 196 задач, охватывающих оптимизацию HIP-to-HIP, оптимизацию Triton-to-Triton и перевод PyTorch-to-HIP, и оценивает полные рабочие процессы агентов в изолированных рабочих пространствах, используя проверки компиляции, корректности и производительности, централизованную оценку и протокол обобщения на невиданные конфигурации, который проверяет, переносятся ли оптимизации на входные конфигурации, которые агент никогда не наблюдал. Среди продукционных агентов, включая Cursor Agent, Claude Code и Codex Agent, мы наблюдаем почти идеальную компиляцию и высокие показатели корректности на большинстве категорий задач, причем наиболее сильные конфигурации достигают среднего ускорения до 6,89 раза на задачах PyTorch-to-HIP, 6,69 раза на HIP-to-HIP и 2,13 раза на Triton-to-Triton. Наша оценка на невиданных конфигурациях показывает, что оптимизации HIP-to-HIP и Triton-to-Triton в значительной степени переносятся на невиданные формы входных данных, в то время как PyTorch-to-HIP демонстрирует значительное падение корректности, что указывает на то, что агенты, создающие ядра с нуля, часто жестко кодируют предположения, зависящие от формы. AgentKernelArena спроектирована как модульная, расширяемая структура для строгой оценки агентской оптимизации GPU-ядер в разрезе агентов, задач и аппаратных целей.

SNLP: Параллельная по слоям инференция через структурированные поправки Ньютона
SNLP: Layer-Parallel Inference via Structured Newton Corrections

May 18

ByLigong Han, Kai Xu, Hao Wang, Akash Srivastava

Авторегрессионные языковые модели выполняют слои Трансформера последовательно, что создаёт узкое место по задержке, которое не устраняется обычным тензорным или конвейерным параллелизмом. Мы исследуем, можно ли ослабить эту послойную зависимость, рассматривая след скрытых состояний по слоям как решение нелинейного остаточного уравнения и решая его с помощью параллельных ньютоновских обновлений. Хотя такой подход является теоретически обоснованным, точные ньютоновские коррекции требуют дорогостоящих произведений Якобиана на вектор, а наивные итерации неподвижной точки оказываются нестабильными на обученных Трансформерах. Мы предлагаем структурированный ньютоновский параллелизм слоёв (Structured Newton Layer Parallelism, SNLP) — фреймворк для обучения и инференса, который заменяет точные якобианы слоёв дешёвыми суррогатными динамиками, порождёнными архитектурой. В остаточных Трансформерах это даёт тождественный ньютоновский метод (Identity Newton, IDN), где коррекция сводится к обновлению, подобному префиксной сумме; в архитектурах типа mHC — ньютоновский метод HC (HC Newton, HCN), использующий матрицу остаточного смешивания модели. Мы также вводим регуляризацию, учитывающую SNLP, которая обучает модели так, чтобы одно или несколько структурированных ньютоновских итераций точно аппроксимировали последовательный прямой проход. Эксперименты на Трансформерах масштаба nanochat показывают, что регуляризация SNLP улучшает совместимость с параллелизмом по слоям и может также улучшать стандартную последовательную перплексию, снижая базовую PPL на 4,7%–23,4%. Во время инференса SNLP в сочетании с объединением слоёв и поблочным разложением даёт практическое ускорение по астрономическому времени: на модели Nanochat с 0,5 млрд параметров достигается ускорение в 2,3 раза при одновременном улучшении PPL на 6,1%. Эти результаты позволяют предположить, что параллельный по слоям инференс — это не просто численная аппроксимация последовательного выполнения, но и полезное смещение, обусловленное решателем. Мы также характеризуем ограничения: готовые предобученные модели менее поддаются этой процедуре, а точная сходимость восстанавливает последовательные вычисления, а не обеспечивает монотонное масштабирование во время инференса.

Геометрический фазовый переход обеспечивает экстремальную емкость гиппокампальной памяти.
Geometric Phase Transition Enables Extreme Hippocampal Memory Capacity

May 16

ByPrashant C. Raju

Системы памяти могут хранить существенно разные объёмы информации, несмотря на схожие аппаратные ограничения. Здесь мы показываем, что превосходная пространственная память возникает из дискретного упрочнения геометрии популяции гиппокампа — перехода от неорганизованного к кристаллическому коллективному кодированию. Сравнивая синиц, запасающих корм, с зебровыми амадинами, не запасающими корм, мы обнаружили, что гиппокамп запасающих птиц поддерживает топологически жёсткую, «кристаллическую» геометрию с существенно более высокой геометрической стабильностью (Shesha 0,245 против 0,166) и почти двукратной временной согласованностью (Shesha 0,393 против 0,209), в то время как гиппокамп незапасающих птиц напоминает неорганизованный «туман». Эта стабильность активно создаётся синергетической динамикой цепей: возбуждающие нейроны формируют пространственный каркас, а тормозные популяции вносят вклад в ортогональную декорреляцию — схемный мотив, в котором возбуждающие и тормозные популяции занимают в значительной степени непересекающиеся репрезентационные подпространства. Двойная диссоциация со Стабильным аллокатором памяти Валианта — моделью, предсказывающей, что в основе каждой памяти лежат специализированные ансамбли нейронов, — подтверждает, что это преимущество отражает непрерывную топологическую организацию, а не дискретное выделение нейронов: сети запасающих птиц демонстрируют почти нулевую надёжность распределения при расщеплении выборки, несмотря на их геометрическое превосходство. Вычислительное моделирование по 10 000 конфигураций показывает, что топологическая жёсткость является математической предпосылкой масштабирования: кристаллические коды поддерживают высокоточное считывание для более M=1 тыс. локаций, тогда как туманные коды выходят из строя при M менее 10 — преимущество в ёмкости более чем в 100 раз. Эта ёмкость требует 169-кратной репрезентационной избыточности: «геометрического налога», стабилизирующего многообразие против биологического шума. Эти результаты устанавливают геометрическую стабильность в качестве кандидатного организующего принципа биологической памяти: эволюция достигает высокоёмкой памяти не за счёт размножения нейронов, а за счёт конструирования геометрии самого нейронного кода.

Принцип совместимости с симметрией для проектирования оптимизатора: встраивания, головы LM, SwiGLU-многослойные перцептроны и маршрутизаторы MoE
Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers

May 18

ByTim Tsz-Kit Lau, Weijie Su

Давно сохраняется заметное геометрическое несоответствие в практике глубокого обучения. В то время как современные архитектуры нейронных сетей естественным образом обладают богатыми свойствами симметрии и эквивариантности, популярные оптимизаторы, такие как Adam и его варианты, работают по своей сути покоординатно, что не позволяет им учитывать структуры эквивариантности пространства параметров. Мы устраняем это несоответствие, вводя принцип проектирования оптимизаторов, совместимый с симметрией: правило градиентного обновления должно быть эквивариантным относительно группы симметрии, действующей на соответствующий весовой блок. Следуя этому принципу, мы сначала предлагаем единую перспективу на биортогонально эквивариантные обновления для общих матричных слоёв, используемые в методах стохастического спектрального спуска, Muon, Scion и полярных градиентных методов. Что более важно, переходя от ортогональных групп к симметриям перестановок и общих сдвигов, мы выводим совместимые с симметрией оптимизаторы для блоков параметров, чьи симметрии отличаются от симметрий общих матричных слоёв: матриц вложений и LM-головок, проекций SwiGLU MLP и матриц маршрутизации MoE. Эти конструкции включают односторонние спектральные, строчно-нормированные, гибридные строчно-нормированные/спектральные, строчно-чувствительные, столбцово-чувствительные, центрированные строчно-нормированные и лево-спектральные обновления. Они образуют сквозной послойный стек оптимизаторов, в котором каждому основному классу матричных параметров назначается обновление, чья эквивариантность соответствует его группе симметрии. Мы подтверждаем этот принцип с помощью экспериментов по предварительному обучению на плотных и разреженных языковых моделях MoE, включая архитектуры в стиле Qwen3-0.6B, Gemma 3 1B, OLMoE-1B-7B и уменьшенные gpt-oss. Во всех этих экспериментах обновления, совместимые с симметрией, последовательно улучшают итоговое значение функции потерь на валидации, а в ряде случаев и стабильность обучения, по сравнению с соответствующими обновлениями AdamW.

E-PMQ: Управляемое экспертом квантование после слияния с фиксацией объединённых весов
E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring

May 16

ByWenjun Wang, Yanggan Gu, Shuo Cai, Yuanyi Wang, Pengkai Wang, Jianmin Wu, Hongxia Yang

Ограничения ресурсов при развертывании сделали квантизацию моделей необходимой для внедрения нейронных сетей с сохранением производительности. В то же время слияние моделей становится все более практичной низкоресурсной стратегией для интеграции нескольких экспертов, специализированных по задачам или предметным областям, в единую модель без совместного обучения или обслуживания нескольких моделей. Вместе квантизация и слияние моделей позволяют создать эффективный конвейер развертывания с низким потреблением ресурсов путем объединения нескольких экспертов в одну низкобитовую модель. Мы формулируем эту постановку как постслитную квантизацию (PMQ). Мы показываем, что прямое применение посттренировочной квантизации (PTQ) к слитной модели ненадежно из-за связи двух различных отклонений: отклонения квантизации, вносимого низкобитовой реконструкцией, и отклонения слияния, связанного с экспертами, унаследованного от объединения моделей. Для смягчения этих отклонений мы предлагаем E-PMQ, эксперт-управляемый фреймворк PMQ, который использует веса исходных экспертов для предоставления экспертно-ориентированных выходных целей во время послойной калибровки, а также фиксацию слитных весов для стабилизации калибровки и сохранения интегрированного поведения объединенной модели. На слиянии восьми задач с CLIP-ViT-B/32 E-PMQ улучшает 4-битный GPTQ с 65,0% до 73,6% при Task Arithmetic и с 69,1% до 74,8% при TIES-Merging. В более сложных условиях E-PMQ улучшает GPTQ с 34,8% до 76,7% на 20-задачном CLIP-ViT-L/14 и с 78,26% до 83,34% на FLAN-T5-base GLUE. Эти результаты демонстрируют, что E-PMQ обеспечивает эффективную постслитную квантизацию и низкобитовое развертывание.

Аудит мультимодальных LLM-оценщиков: систематическая ошибка центральной тенденции в клиническом ординальном оценивании
Auditing Multimodal LLM Raters: Central Tendency Bias in Clinical Ordinal Scoring

May 11

ByJiaqing Zhang, Sandeep Elluri, Bhanu Cherukuvada, Yonah Joffe, Jessica Sena, Miguel Contreras, Scott Siegel, Subhash Nerella, Catherine Price, Parisa Rashidi

Мультимодальные большие языковые модели (LLM) все чаще исследуются в качестве автоматизированных оценщиков в клинических условиях, однако их поведение при выставлении баллов по порядковым клиническим шкалам остается плохо изученным. Мы проводим сравнительный анализ трех передовых семейств LLM с контролируемыми моделями глубокого обучения для оценки изображений теста рисования часов (CDT) на двух общедоступных наборах данных с использованием рубрики Шульмана. Хотя полностью дообученные Vision Transformers достигают наилучшей калибровки (MAE 0.52, точность в пределах 1 балла 91%), LLM с нулевым обучением остаются конкурентоспособными по согласованности на основе допусков (GPT-5 MAE 0.67, точность в пределах 1 балла 92%), несмотря на более высокую абсолютную ошибку. Однако поScore-анализ показывает, что все три семейства LLM демонстрируют выраженный эффект центральной тенденции (систематическое сжатие крайних значений): предсказания систематически сжимаются к середине шкалы, с завышением на нижнем конце (баллы от 0 до 1) и занижением на верхнем конце (баллы от 5 до 4). Этот эффект непропорционально сильно затрагивает клинически критические крайние значения, где точное оценивание наиболее сильно влияет на решения о скрининге когнитивных нарушений. Целенаправленные абляции показывают, что ни использование примеров с полным диапазоном баллов в режиме нескольких попыток, ни удаление клинической терминологии из промпта не устраняют этот эффект. Наши результаты расширяют литературу по смещению LLM как судей с оценки NLP на клиническую оценку и подчеркивают необходимость оценки с учетом калибровки и последующей калибровки перед внедрением оценщиков на основе LLM в рабочие процессы скрининга с высокой ответственностью.

Мониторинг внутреннего монолога: траектории проб раскрывают динамику рассуждений
Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

May 18

ByMaciej Chrabąszcz, Aleksander Szymczyk, Marcin Sendera, Tomasz Trzciński, Sebastian Cygert

Большие модели рассуждений (Large Reasoning Models, LRMs) открывают новые возможности для мониторинга безопасности благодаря своему цепочечному рассуждению (Chain of Thought, CoT). Однако CoT не всегда соответствует конечному выводу модели, что подрывает его надежность как инструмента мониторинга. Для решения этой проблемы мы исследуем скрытые представления LRM, чтобы определить, можно ли предсказать будущее поведение на основе представлений промпта и CoT. Оценивая зонд на каждом сгенерированном токене, мы строим траекторию зонда — непрерывную эволюцию вероятности концепта в процессе рассуждения. Мы обнаружили, что будущее поведение модели лучше различается при анализе полной траектории, чем по одному статическому предсказанию. Чтобы охарактеризовать эту временную динамику, мы извлекаем признаки обработки сигналов, которые отражают волатильность, тренд и установившееся поведение, что значительно улучшает разделение будущих состояний модели. Мы также представляем два методологических наблюдения. Во-первых, обучение на шаблонных данных достигает почти паритета с динамически сгенерированными ответами модели, устраняя необходимость в дорогостоящем первоначальном выводе и разметке. Во-вторых, выбор операции объединения критичен: методы среднего объединения и последнего токена снижаются до почти случайной производительности, в то время как максимальное объединение достигает AUROC до 95% и дает стабильные траектории зонда. Используя четыре набора данных и четыре модели рассуждений в областях безопасности и математики, мы демонстрируем, что признаки траектории кодируют специфическую для задачи динамику, которая улучшает разделяемость результатов. Эти результаты устанавливают траектории зонда как дополнительный фреймворк для мониторинга поведения LRM. Предупреждение: эта статья содержит потенциально вредный контент.

SCICONVBENCH: бенчмаркинг больших языковых моделей на многораундовых уточнениях для формулировки задач в вычислительной науке
SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

May 18

ByNithin Somasekharan, Youssef Hassan, Shiyao Lin, Gihan Panapitiya, Patrick Emami, Anurag Acharya, Sameera Horawalavithana, Shaowu Pan

Большие языковые модели (БЯМ) все чаще развертываются в качестве научных ИИ-ассистентов, и растущее число бенчмарков оценивает их способности в таких областях, как извлечение знаний, рассуждение, генерация кода и использование инструментов. Однако такие оценки обычно предполагают, что научная задача уже является корректно поставленной, тогда как на практике научная помощь часто начинается с некорректно сформулированного запроса пользователя, который необходимо уточнить в ходе диалога, прежде чем можно будет надежно провести вычисления, анализ или эксперимент. Мы представляем SCICONVBENCH — бенчмарк для многошагового уточнения при формулировке научных задач в четырех вычислительных предметных областях: механике жидкости, механике твердого тела, материаловедении и дифференциальных уравнениях в частных производных (ДУЧП). SCICONVBENCH нацелен на две взаимодополняющие способности: выявление недостающей информации (снятие неоднозначности) и обнаружение и исправление ошибочных запросов, содержащих внутренне противоречивую информацию (разрешение противоречий). Наш бенчмарк сочетает структурированную онтологию задачи с системой оценки на основе рубрик, что позволяет систематически измерять производительность БЯМ по трем измерениям: поведение при уточнении, диалоговое согласование и точность итоговой спецификации. Современные граничные модели демонстрируют относительно хорошие результаты при разрешении противоречий, однако даже лучшая модель решает лишь 52,7% случаев снятия неоднозначности в механике жидкости. Кроме того, мы обнаружили, что граничные БЯМ часто делают неявные предположения и выполняют скрытые исправления спецификации, не согласованные с пользователем в ходе диалога. SCICONVBENCH закладывает основу для оценки того предварительного диалогового рассуждения, которое требуется надежному ассистенту по вычислительным наукам. Код и данные доступны по адресу https://github.com/csml-rpi/SciConvBench.

AR-VLA: Настоящий авторегрессионный эксперт действий для моделей видения, языка и действий
AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

May 11

ByYutong Hu, Jan-Nico Zaech, Nikolay Nikolov, Yuanqi Yao, Sombit Dey, Giuliano Albanese, Renaud Detry, Luc Van Gool, Danda Paudel

Мы предлагаем автономного авторегрессионного (AR) Эксперта действий, который генерирует действия в виде непрерывной каузальной последовательности, при этом обусловливаясь обновляемыми визуально-языковыми префиксами. В отличие от существующих моделей Vision-Language-Action (VLA) и диффузионных политик, которые сбрасывают временной контекст при каждом новом наблюдении и предсказывают действия реактивно, наш Эксперт действий поддерживает собственную историю через долгоживущую память и по своей сути учитывает контекст. Такая структура устраняет несоответствие частот между быстрым управлением и медленным рассуждением, обеспечивая эффективное независимое предварительное обучение кинематического синтаксиса и модульную интеграцию с тяжёлыми перцептивными магистралями, естественным образом гарантируя пространственно-временно согласованную генерацию действий между кадрами. Для синхронизации этих асинхронных гибридных визуально-языково-моторных (V-L-A) модальностей мы используем механизм повторной привязки, который математически учитывает устаревание восприятия как при обучении, так и при выводе. Эксперименты на симулированных и реальных задачах манипуляции роботом показывают, что предложенный метод может эффективно заменить традиционные блочные головки действий как для специализированных, так и для обобщённых политик. AR-VLA демонстрирует превосходную осведомлённость о истории и значительно более плавные траектории действий, сохраняя или превосходя показатели успешности задач современных реактивных VLA. В целом, наша работа представляет масштабируемую, учитывающую контекст схему генерации действий, которая обеспечивает надёжную структурную основу для обучения эффективных роботизированных политик. Код и видео доступны по адресу https://arvla.insait.ai.

GRASP: Обучение обоснованию социальных рассуждений в многосубъектных невербальных взаимодействиях
GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions

May 15

ByJunho Kim, Xu Cao, Houze Yang, Bikram Boote, Ana Jojic, Fiona Ryan, Bolin Lai, Sangmin Lee, James M. Rehg

Понимание социальных взаимодействий требует рассуждений на основе тонких невербальных сигналов, однако современные мультимодальные большие языковые модели (MLLM) зачастую неспособны определить, кто с кем взаимодействует в видео с несколькими участниками. Мы представляем GRASP — крупномасштабный набор данных для социального рассуждения, который связывает высокоуровневые социальные вопросы и ответы (QA) с детальными событиями взгляда и дейктических жестов. GRASP содержит 290 тысяч пар «вопрос–ответ» по 46 тысяч видео общей продолжительностью 749 часов, организованных в 16-категорийную таксономию, охватывающую рассуждения о взгляде, жестах и совместном взгляде и жестах, а также эталонный набор GRASP-Bench для оценки. В отличие от предыдущих ресурсов, которые сосредоточены либо на изолированных сигналах, либо на высокоуровневом социальном QA, GRASP формирует вопросы на основе согласованных с идентичностью траекторий взгляда, дейктических жестов и их совместных композиций в социальные события. Кроме того, мы предлагаем стимул социального обоснования (Social Grounding Reward, SGR) — обучающий сигнал, который использует эти социальные события, чтобы побудить модели рассуждать об участниках каждого взаимодействия. Эксперименты показывают, что SGR улучшает производительность на GRASP-Bench, сохраняя при этом нулевую производительность на смежных эталонных тестах социального видео QA.

TopoPrimer: Недостающий топологический контекст в моделях прогнозирования
TopoPrimer: The Missing Topological Context in Forecasting Models

May 14

ByZara Zetlin, Kayhan Moharreri, Maria Safi

Мы представляем TopoPrimer — фреймворк, который делает глобальную топологическую структуру популяции временных рядов явным входом для любой прогностической модели. TopoPrimer повышает точность в различных предметных областях, стабилизирует прогнозы при сезонных всплесках спроса и устраняет разрыв холодного старта. Предварительно вычисляемый один раз для каждой области с помощью персистентной гомологии и спектральных координат пучка, TopoPrimer развертывается для каждого токена в полностью обученных моделях и как легковесный адаптер для предварительно обученных базовых архитектур. Из этих двух компонентов спектральные координаты пучка являются основным движущим фактором точности. На четырех публичных бенчмарках с Chronos и TimesFM TopoPrimer последовательно улучшает точность прогнозирования, достигая прироста до 7,3% по MSE на ECL. Преимущество топологии сохраняется с почти одинаковой величиной как для базовых моделей с нулевой настройкой, так и для дообученных, что позволяет предположить, что топология и обучение на индивидуальных рядах захватывают взаимодополняющие сигналы. Наибольший прирост наблюдается в сложных режимах. При пиковом сезонном спросе классические модели и модели с нулевой настройкой деградируют до 50%, в то время как TopoPrimer остается в пределах 10%. При холодном старте без истории элемента TopoPrimer снижает MAE на 27% по сравнению с базовым методом без учета топологии.