HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

49 papers found

Расширение одноэтапной генерации изображений от меток классов к тексту через дискриминативное текстовое представление
Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

Apr 20

ByChenxi Zhao, Chen Zhu, Xiaokun Feng, Aiming Hao, Jiashu Zhu, Jiachen Lei, Jiahong Wu, Xiangxiang Chu, Jufeng Yang

Многошаговая генерация долгое время оставалась важной целью, при этом недавние методы одношаговой генерации, такие как MeanFlow, демонстрируют выдающиеся результаты. Существующие исследования MeanFlow в основном сосредоточены на генерации изображений по классам. Однако интуитивно понятным, но неисследованным направлением является расширение условия с фиксированных меток классов до гибких текстовых описаний, что позволяет создавать более разнообразный контент. По сравнению с ограниченными метками классов текстовые условия предъявляют более высокие требования к способности модели к пониманию, что требует эффективной интеграции мощных текстовых энкодеров в структуру MeanFlow. Несмотря на кажущуюся простоту включения текстовых условий, мы обнаружили, что использование традиционных стратегий обучения для интеграции мощных текстовых энкодеров на основе больших языковых моделей приводит к неудовлетворительной производительности. Чтобы выявить первопричину, мы провели детальный анализ и установили, что из-за крайне ограниченного числа шагов уточнения в генерации MeanFlow (например, всего одного шага) текстовые feature-представления должны обладать достаточно высокой различимостью. Это также объясняет, почему дискретные и легко различимые признаки классов хорошо работают в рамках MeanFlow. Руководствуясь этими выводами, мы используем проверенный мощный текстовый энкодер на основе LLM, обладающий необходимыми семантическими свойствами, и адаптируем процесс генерации MeanFlow к данной структуре, впервые получив эффективный синтез по текстовому условию. Кроме того, мы проверяем наш подход на широко используемой диффузионной модели, демонстрируя значительное улучшение производительности генерации. Мы надеемся, что эта работа послужит практическим ориентиром для будущих исследований тексто-обусловленной генерации MeanFlow. Код доступен по адресу https://github.com/AMAP-ML/EMF.

OneVL: Однопроходное латентное рассуждение и планирование с визуально-языковым объяснением
OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

Apr 20

ByJinghui Lu, Jiayi Guan, Zhijian Huang, Jinlong Li, Guang Li, Lingdong Kong, Yingyan Li, Han Wang, Shaoqing Xu, Yuechen Luo, Fang Li, Chenxu Dang, Junli Wang, Tao Xu, Jing Wu, Jianhua Wu, Xiaoshuai Hao, Wen Zhang, Tianyi Jiang, Lingfeng Zhang, Lei Zhou, Yingbo Tang, Jie Wang, Yinfeng Gao, Xizhou Bu, Haochen Tian, Yihang Qiu, Feiyang Jia, Lin Liu, Yigu Ge, Hanbing Li, Yuannan Shen, Jianwei Cui, Hongwei Xie, Bing Wang, Haiyang Sun, Jingwei Zhao, Jiahui Huang, Pei Liu, Zeyu Zhu, Yuncheng Jiang, Zibin Guo, Chuhong Gong, Hanchao Leng, Kun Ma, Naiyang Wang, Guang Chen, Kuiyuan Yang, Hangjun Ye, Long Chen

Метод рассуждений «цепочка мыслей» (CoT) стал мощным инструментом для прогнозирования траекторий в автономном вождении на основе VLA, однако его авторегрессионная природа приводит к задержкам, неприемлемым для развертывания в реальном времени. Методы латентного CoT пытаются сократить этот разрыв, сжимая рассуждения в непрерывные скрытые состояния, но стабильно уступают своим явным аналогам. Мы предполагаем, что это связано с тем, что чисто лингвистические латентные представления сжимают символическую абстракцию мира, а не причинно-следственные динамики, которые фактически управляют вождением. Таким образом, мы представляем OneVL — унифицированную структуру VLA и Мировой Модели, которая направляет рассуждения через компактные латентные токены, контролируемые двумя вспомогательными декодерами. Наряду с языковым декодером, восстанавливающим текстовую CoT, мы вводим декодер визуальной мировой модели, который предсказывает токены будущих кадров, заставляя латентное пространство усваивать причинно-следственные динамики дорожной геометрии, движения агентов и изменений окружающей среды. Трехэтапный конвейер обучения постепенно выравнивает эти латентные переменные с целями траектории, языка и визуализации, обеспечивая стабильную совместную оптимизацию. На этапе вывода вспомогательные декодеры отбрасываются, и все латентные токены заполняются за один параллельный проход, что соответствует скорости прогнозирования только ответа. На четырех тестовых наборах OneVL становится первым методом латентного CoT, превзошедшим явный CoT, демонстрируя наивысшую точность при задержке, характерной для прогнозирования только ответа, и предоставляя прямое доказательство того, что более плотное сжатие, направляемое как языковым, так и мировым контролем, порождает более обобщаемые представления, чем подробное пошаговое рассуждение. Страница проекта: https://xiaomi-embodied-intelligence.github.io/OneVL

Агент-Мир: Масштабирование синтеза реальных сред для эволюции общего интеллекта агентов
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Apr 20

ByGuanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou

Крупные языковые модели всё чаще рассматриваются как универсальные агенты, взаимодействующие с внешними инструментальными средами, обладающими состоянием. Модельный контекстный протокол (MCP) и более широкий набор агентских навыков предлагают унифицированный интерфейс для подключения агентов к масштабируемым сервисам реального мира, однако обучение robustных агентов по-прежнему ограничено отсутствием реалистичных сред и принципиальных механизмов непрерывного обучения. В данной статье мы представляем Agent-World — саморазвивающуюся тренировочную арену для развития общего агентного интеллекта через масштабируемые среды. Agent-World состоит из двух основных компонентов: (1) Автономного обнаружения сред и задач, которое самостоятельно исследует тематически выровненные базы данных и экосистемы исполняемых инструментов из тысяч тем реальных сред и синтезирует проверяемые задачи с контролируемой сложностью; и (2) Непрерывного саморазвивающегося обучения агентов, которое сочетает обучение с подкреплением в множественных средах с саморазвивающейся ареной агентов, автоматически выявляющей пробелы в способностях через динамический синтез задач и стимулирующей целенаправленное обучение, что позволяет осуществлять коэволюцию политик агентов и сред. На 23 сложных агентских бенчмарках модели Agent-World-8B и 14B стабильно превосходят мощные проприетарные модели и базовые подходы к масштабированию сред. Дальнейший анализ выявляет тренды масштабирования в зависимости от разнообразия сред и циклов саморазвития, предлагая insights для построения общего агентного интеллекта.

OpenGame: Открытое агентное кодирование для игр
OpenGame: Open Agentic Coding for Games

Apr 20

ByYilei Jiang, Jinyuan Hu, Qianyin Xiao, Yaozhi Zheng, Ruize Ma, Kaituo Feng, Jiaming Han, Tianshuo Peng, Kaixuan Fan, Manyuan Zhang, Xiangyu Yue

Разработка игр находится на стыке творческого дизайна и сложного программного обеспечения, требуя совместной координации игровых движков, циклов реального времени и тесно связанных состояний между множеством файлов. Хотя большие языковые модели и агенты кода теперь легко решают изолированные программистские задачи, они неизменно терпят неудачу при создании полностью играбельных игр по высокоуровневому дизайну, сталкиваясь с межфайловыми несоответствиями, нарушенными связями сцен и логической несогласованностью. Мы преодолеваем этот разрыв с помощью OpenGame — первой открытой агентской фреймворк-системы, явно предназначенной для сквозного создания веб-игр. В её основе лежит Game Skill — переиспользуемый, развивающийся навык, состоящий из Template Skill, который накапливает библиотеку каркасов проектов на основе опыта, и Debug Skill, ведущего постоянно обновляемый протокол проверенных исправлений. Вместе это позволяет агенту выстраивать стабильные архитектуры и систематически исправлять ошибки интеграции вместо точечного исправления синтаксических ошибок. Основой фреймворка служит GameCoder-27B — кодовая языковая модель, специализированная на мастерском владении игровыми движками благодаря трёхэтапному пайплайну непрерывного предобучения, контролируемого тонкого обучения и обучения с подкреплением на основе исполнения. Поскольку проверка игровой состоятельности принципиально сложнее анализа статического кода, мы также представляем OpenGame-Bench — оценочный пайплайн, оценивающий агентскую генерацию игр по параметрам работоспособности сборки, визуальной удобности и соответствия замыслу через headless-браузер и проверку VLM. На 150 разнообразных игровых промптах OpenGame устанавливает новое состояние искусства. Мы надеемся, что OpenGame выведет код-агентов за рамки дискретных задач программной инженерии к созданию сложных интерактивных приложений реального мира. Наш фреймворк будет полностью открыт.

MultiWorld: Масштабируемые Мульти-Агентные Мульти-Вью Модели Мира для Видео
MultiWorld: Scalable Multi-Agent Multi-View Video World Models

Apr 20

ByHaoyu Wu, Jiwen Yu, Yingtian Zou, Xihui Liu

Видеомодели мира достигли значительных успехов в моделировании динамики окружающей среды в ответ на действия пользователей или агентов. Они реализуются как модели генерации видео, обусловленные действиями, которые принимают исторические кадры и текущие действия в качестве входных данных для предсказания будущих кадров. Однако большинство существующих подходов ограничены сценариями с одним агентом и не способны охватить сложные взаимодействия, присущие реальным многoагентным системам. Мы представляем MultiWorld — унифицированную архитектуру для многoагентного многoвидового моделирования мира, которая обеспечивает точное управление несколькими агентами при сохранении многoвидовой согласованности. Мы вводим Многoагентный модуль условий для достижения точной управляемости множеством агентов и Глобальный кодировщик состояния для обеспечения согласованных наблюдений в различных ракурсах. MultiWorld поддерживает гибкое масштабирование количества агентов и ракурсов, а также синтезирует разные виды параллельно для высокой эффективности. Эксперименты в средах многoпользовательских игр и задачах многoроботного манипулирования демонстрируют, что MultiWorld превосходит базовые методы по точности видео, способности следовать действиям и многoвидовой согласованности. Страница проекта: https://multi-world.github.io/

EasyVideoR1: Упрощённое обучение с подкреплением для анализа видео
EasyVideoR1: Easier RL for Video Understanding

Apr 18

ByChuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Dingyu Yao, Zheng Lin, Peng Fu, Nan Duan, Jiaqi Wang

Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) продемонстрировало выдающуюся эффективность в улучшении способностей к рассуждению у больших языковых моделей. По мере того как модели эволюционируют в сторону изначально мультимодальных архитектур, расширение RLVR на понимание видео становится все более важной, но в значительной степени неисследованной задачей. Это связано с разнообразием типов видео-задач, вычислительными затратами на многократное декодирование и предварительную обработку высокоразмерных визуальных входных данных, а также со сложностью воспроизводимой оценки при наличии множества чувствительных гиперпараметров. Существующие фреймворки с открытым исходным кодом для RL-обучения предоставляют надежную инфраструктуру для текстовых и графических сценариев, но в них отсутствуют системные оптимизации, адаптированные specifically для видео-модальности. В данной работе мы представляем EasyVideoR1 — полный и эффективный фреймворк обучения с подкреплением, специально разработанный для тренировки больших визуально-языковых моделей на задачах понимания видео. EasyVideoR1 вносит следующий вклад: (1) полный конвейер RL-обучения на видео с автономной предобработкой и кешированием тензоров, который устраняет избыточное декодирование видео и обеспечивает увеличение пропускной способности в 1.47 раза; (2) комплексная, ориентированная на задачу система вознаграждений, охватывающая 11 различных типов видео- и изображенческих проблем с унифицированной маршрутизацией и модульной расширяемостью; (3) парадигма обучения на смешанных автономных и онлайн-данных, которая сочетает курированные высококачественные траектории с поиском на основе политики, что способствует обучению более сложным задачам; (4) совместное обучение на изображениях и видео с независимо настраиваемыми бюджетами пикселей, позволяющее двум модальностям взаимно усиливать друг друга; и (5) асинхронная система оценки по множеству бенчмарков, охватывающая 22 основных бенчмарка для понимания видео, с воспроизведенной точностью, близкой к официально заявленным результатам.

GFT: От имитации к тонкой настройке через вознаграждение с использованием несмещённых групповых преимуществ и динамической коррекции коэффициентов
GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Apr 15

ByWangjie Gan, Miao Pan, Linbo Xi, Wenqi Zhang, Jintao Chen, Jianwei Yin, Xuhong Zhang

Крупные языковые модели обычно дообучаются с использованием контролируемой тонкой настройки (SFT) и обучения с подкреплением (RL), однако эффективное объединение результативного внедрения знаний с устойчивой обобщающей способностью остается сложной задачей. В данной работе мы проводим анализ динамики обучения, показывающий, что SFT можно интерпретировать как частный случай оптимизации градиента политики с чрезвычайно разреженной неявной наградой и нестабильным взвешиванием по обратной вероятности, что в совокупности приводит к зависимости от единственного пути, коллапсу энтропии и взрыву градиента. Мотивированные этим диагнозом, мы предлагаем Групповую тонкую настройку (GFT) — унифицированную框架 дообучения, которая устраняет эти внутренние ограничения с помощью двух механизмов: Group Advantage Learning, который создает разнородные группы ответов и извлекает нормализованные контрастные сигналы для смягчения разреженности награды, и Dynamic Coefficient Rectification, который адаптивно ограничивает веса обратной вероятности для стабилизации оптимизации при сохранении эффективного внедрения знаний. Эксперименты показывают, что GFT стабильно превосходит методы на основе SFT и порождает политики, которые более плавно интегрируются с последующим обучением с подкреплением.

WebCompass: К мультимодальной оценке веб-кодирования для языковых моделей программирования
WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models

Apr 20

ByXinping Lei, Xinyu Che, Junqi Xiong, Chenchen Zhang, Yukai Huang, Chenyu Zhou, Haoyang Huang, Minghao Liu, Letian Zhu, Hongyi Ye, Jinhua Hao, Ken Deng, Zizheng Zhan, Han Li, Dailin Li, Yifan Yao, Ming Sun, Zhaoxiang Zhang, Jiaheng Liu

Крупные языковые модели быстро превращаются в интерактивных программных агентов, способных к сквозной веб-разработке, однако существующие бенчмарки оценивают лишь узкие срезы этих возможностей, как правило, генерацию по текстовому условию со статическими метриками корректности, оставляя визуальное соответствие, качество взаимодействия и рассуждения на уровне кодовой базы в значительной степени неизмеренными. Мы представляем WebCompass, мультимодальный бенчмарк, обеспечивающий унифицированную оценку жизненного цикла способностей к веб-инжинирингу. Признавая, что реальная веб-разработка представляет собой итеративный цикл генерации, редактирования и исправления, WebCompass охватывает три модальности входных данных (текст, изображение, видео) и три типа задач (генерация, редактирование, исправление), формируя семь категорий задач, которые отражают профессиональные рабочие процессы. С помощью многоэтапного конвейера с участием человека мы отбираем примеры, покрывающие 15 доменов генерации, 16 типов операций редактирования и 11 типов дефектов для исправления, каждый с аннотацией уровня сложности Легкий/Средний/Сложный. Для оценки мы применяем контролируемый чек-листом протокол LLM-as-a-Judge для редактирования и исправления и предлагаем новую парадигму Agent-as-a-Judge для генерации, при которой агент автономно исполняет сгенерированные веб-сайты в реальном браузере, исследует интерактивное поведение через Model Context Protocol (MCP) и итеративно синтезирует целевые тестовые сценарии, близко приближаясь к приемочному тестированию человеком. Мы оцениваем репрезентативные проприетарные и открытые модели и наблюдаем, что: (1) проприетарные модели остаются существенно более мощными и сбалансированными; (2) редактирование и исправление демонстрируют различные профили сложности, причем исправление лучше сохраняет интерактивность, но остается сложным для выполнения; (3) эстетика является наиболее устойчивым узким местом, особенно для открытых моделей; и (4) выбор фреймворка существенно влияет на результаты, причем Vue стабильно вызывает сложности, тогда как React и Vanilla/HTML показывают более сильные результаты в зависимости от типа задачи.

ClawEnvKit: Автоматическая генерация окружения для когтеобразных агентов
ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

Apr 20

ByXirui Li, Ming Li, Derry Xu, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou

Создание сред для обучения и оценки когтеподобных агентов остается ручным, трудоемким процессом, который плохо масштабируется. Мы утверждаем, что необходима не просто набор данных, а автоматизированный конвейер, способный генерировать разнообразные, верифицированные среды по требованию. Для этой цели мы представляем ClawEnvKit — автономный конвейер генерации, который реализует данный формализм из описаний на естественном языке. Конвейер состоит из трех модулей: (1) парсера, извлекающего структурированные параметры генерации из входных данных на естественном языке; (2) генератора, создающего спецификацию задачи, интерфейс инструмента и конфигурацию оценки; и (3) валидатора, обеспечивающего выполнимость, разнообразие, структурную корректность и внутреннюю согласованность генерируемых сред. С помощью ClawEnvKit мы создали Auto-ClawEval — первый крупномасштабный бенчмарк для когтеподобных агентов, содержащий 1040 сред в 24 категориях. Экспериментально показано, что Auto-ClawEval соответствует или превосходит среды, созданные человеком, по связности и ясности при стоимости в 13 800 раз ниже. При оценке на 4 семействах моделей и 8 платформах для запуска агентов мы обнаружили, что инженерия обвязки повышает производительность до 15.7 процентных пунктов по сравнению с базовым ReAct, завершение остается основной осью вариативности без насыщения бенчмарка ни одной моделью, а автоматизированная генерация позволяет проводить оценку в ранее недостижимых масштабах. Помимо статического бенчмаркинга, ClawEnvKit обеспечивает динамическую оценку: пользователи описывают желаемую возможность на естественном языке и получают верифицированную среду по требованию, превращая оценку в непрерывный пользовательско-управляемый процесс. Этот же механизм служит генератором учебных сред по требованию, создавая распределения задач, которые адаптируются к текущим слабостям агента, а не ограничиваются существующими пользовательскими логами.

Когда языковые модели могут научиться рассуждать при слабом контроле?
When Can LLMs Learn to Reason with Weak Supervision?

Apr 20

BySalman Rahman, Jingyan Shen, Anna Mordvina, Hamid Palangi, Saadia Gabriel, Pavel Izmailov

Крупные языковые модели демонстрируют значительный прогресс в области рассуждений благодаря обучению с подкреплением на верифицируемых вознаграждениях (RLVR). Однако по мере роста возможностей моделей построение высококачественных сигналов вознаграждения становится все более сложной задачей, что делает необходимым понимание условий, при которых RLVR может быть успешным в условиях ослабленного контроля. Мы проводим систематическое эмпирическое исследование на различных семействах моделей и областях рассуждений в трех условиях слабого контроля: недостаточное количество данных, зашумленные вознаграждения и самоконтролируемые прокси-вознаграждения. Мы обнаруживаем, что обобщаемость определяется динамикой насыщения обучающего вознаграждения: модели, способные к обобщению, демонстрируют продолжительную фазу предварительного насыщения, в течение которой обучающее вознаграждение и итоговая производительность растут совместно, тогда как модели, быстро достигающие насыщения, запоминают, а не обучаются. Мы определяем достоверность рассуждений — степень, в которой промежуточные шаги логически обосновывают конечный ответ — как свойство, предшествующее RL, которое предсказывает, в какой режим войдет модель, в то время как одно лишь разнообразие выходных данных неинформативно. Руководствуясь этими выводами, мы разделяем вклад continual предварительного обучения и контролируемой тонкой настройки, устанавливая, что SFT на явных траекториях рассуждений необходима для обобщения в условиях слабого контроля, тогда как continual предварительное обучение на данных предметной области усиливает этот эффект. Совместное применение этих методов к модели Llama3.2-3B-Base позволяет добиться обобщения во всех трех условиях, в которых базовая модель ранее не справлялась.

SkillFlow: Бенчмаркинг непрерывного открытия и эволюции навыков для автономных агентов
SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

Apr 19

ByZiao Zhang, Kou Shi, Shiting Huang, Avery Nie, Yu Zeng, Yiming Zhao, Zhen Fang, Qishen Su, Haibo Qiu, Wei Yang, Qingnan Ren, Shun Zou, Wenxuan Huang, Lin Chen, Zehui Chen, Feng Zhao

По мере расширения границ возможностей автономных агентов они становятся все более способными выполнять специализированные задачи с помощью подключаемых внешних навыков. Однако современные бенчмарки в основном проверяют, способны ли модели использовать предоставленные навыки, оставляя открытым вопрос о том, могут ли они обнаруживать навыки на основе опыта, исправлять их после сбоев и поддерживать согласованную библиотеку с течением времени. Мы представляем SkillFlow — бенчмарк из 166 задач, охватывающих 20 семейств, в котором построение задач внутри каждого семейства следует Domain-Agnostic Execution Flow (DAEF), определяющему фреймворк рабочего процесса агента, что позволяет этим задачам иметь согласованный рабочий процесс. Агенты оцениваются по протоколу Agentic Lifelong Learning, в рамках которого они начинают без навыков, последовательно решают задачи внутри каждого семейства, экстернализируют полученные уроки через патчи навыков на основе траекторий и рубрик и переносят обновленную библиотеку вперед. Эксперименты выявляют существенный разрыв в возможностях. Для Claude Opus 4.6 эволюция навыков на протяжении жизненного цикла повышает успешность выполнения задач с 62,65% до 71,08% (+8,43 пункта). Однако высокое использование навыков не обязательно подразумевает высокую полезность: Kimi K2.5 получает лишь +0,60 пункта, несмотря на использование навыков на 66,87%, в то время как Qwen-Coder-Next достигает уровня завершения задач лишь в 44,58% и все равно демонстрирует регресс по сравнению с базовой настройкой. SkillFlow вносит вклад в виде структурированного полигона для этого направления исследований и предоставляет глубокий эмпирический анализ обнаружения, исправления, передачи навыков и их режимов отказа в условиях пожизненной оценки.

Переполненность в B-пространстве: калибровка общих направлений для слияния LoRA
Crowded in B-Space: Calibrating Shared Directions for LoRA Merging

Apr 18

ByYixuan Tang, Yi Yang

Объединение отдельно обученных адаптеров LoRA является практичной альтернативой совместному многозадачному обучению, но часто приводит к снижению производительности. Существующие методы обычно рассматривают обновление LoRA ΔW = BA как единый объект и не различают две матрицы LoRA. Мы показываем, что основной источник интерференции при слиянии LoRA исходит от выходной матрицы B. Для разных задач B многократно использует небольшой набор общих направлений, в то время как A остается гораздо более специфичной для задачи. В результате объединенный адаптер чрезмерно акцентирует эти общие направления, и информация, специфичная для задачи, теряется. Мы предлагаем Pico (калибровка интерференции перед слиянием в выходном пространстве) — беcданный метод, который калибрует B перед слиянием, уменьшая масштаб чрезмерно общих направлений, а затем перенастраивая масштаб объединенного обновления. Pico напрямую интегрируется в существующие методы слияния, такие как Task Arithmetic, TIES и TSV-M. На восьми различных тестовых наборах из областей математики, программирования, финансов и медицины Pico улучшает среднюю точность на 3.4–8.3 пункта по сравнению с соответствующим базовым методом и демонстрирует наилучшую общую среднюю производительность. Pico также позволяет объединенным адаптерам превзойти LoRA, обученную на всех данных задач. Эти результаты показывают, что слияние LoRA работает лучше, когда две матрицы LoRA рассматриваются отдельно.

Иллюзия определенности: разделение способностей и калибровки при дистилляции на основе текущей политики
The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

Apr 18

ByJiaxin Zhang, Xiangyu Peng, Qinglin Chen, Qinyuan Ye, Caiming Xiong, Chien-Sheng Wu

Он-политическое дистилляционное обучение (OPD) становится все более важной парадигмой для посттренировочной доработки языковых моделей. Однако мы выявляем повсеместно проявляющийся закон масштабирования некорректной калибровки: хотя OPD эффективно повышает точность решения задач, оно систематически загоняет модели в состояние сильной переобученности. Мы связываем эту неудачу с информационным несоответствием: учительский контроль формируется в условиях привилегированного контекста, доступного во время обучения, тогда как развернутая модель должна оценивать уверенность, используя только информацию, доступную во время эксплуатации. Мы формализуем эту точку зрения теоретически, показывая, что успех, обусловленный учителем, вообще говоря, не является валидной целью для уверенности во время развертывания и что полезный привилегированный контекст вызывает коллапс энтропии и систематическое смещение в сторону оптимизма. Для решения этой проблемы мы предлагаем учитывающий калибровку фреймворк OPD, CaOPD, который оценивает эмпирическую уверенность по результатам прогонов модели, заменяет самооценочную уверенность на эту обоснованную студентом цель и дистиллирует пересмотренный ответ через тот же конвейер самообучения. Эксперименты на различных моделях и в различных областях показывают, что CaOPD достигает Парето-оптимальной калибровки, сохраняя при этом конкурентоспособные способности и устойчиво обобщая в условиях внераспределенных данных и непрерывного обучения. Наши результаты подчеркивают, что дистилляция способностей не подразумевает калиброванную уверенность, и что уверенность следует рассматривать как важнейшую цель посттренировочной доработки. Код: https://github.com/SalesforceAIResearch/CaOPD

Бетонные джунгли: к конкретному контрастному отбору негативных примеров для композиционного понимания
Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding

Apr 14

ByEun Woo Im, Dhruv Madhwal, Vivek Gupta

Модели "визуальный язык" демонстрируют впечатляющие возможности, но часто испытывают трудности с композиционным мышлением, проявляя уязвимости в отношении порядка слов и связывания атрибутов. Это ограничение возникает из-за нехватки информативных примеров, необходимых для различения тонких семантических вариаций в процессе контрастивного предварительного обучения. Хотя выбор сложных негативных примеров предлагает многообещающее решение, существующие методы не имеют явных механизмов для определения того, какие лингвистические элементы подвергаются модификации. Вместо разработки генеративных архитектур данное исследование устанавливает лексическую конкретность как фундаментальный детерминант эффективности негативных примеров. Модификация высококонкретных терминов порождает более выраженные структурные и визуальные расхождения, обеспечивая существенно более сильный обучающий сигнал. На основе этого принципа предлагается ConcretePlant для систематического выделения и манипулирования перцептивно обоснованными концептами. Анализ функции потерь InfoNCE также выявляет серьезный дисбаланс градиентов, при котором легко различимые пары непропорционально доминируют в процессе оптимизации и ограничивают пропускную способность, доступную для тонкого обучения. Для устранения этой деградации формулируется функция потерь Cement с использованием подхода, основанного на зазоре. Путем корреляции психолингвистических оценок со сложностью примеров данная цель динамически калибрует штраф, применяемый к отдельным обучающим парам. Всесторонние оценки подтверждают эти теоретические положения. Интегрированная структура, обозначенная как Slipform, достигает наилучшей точности в различных бенчмарках для оценки композиционности, общей кросс-модальной retrieval-задачи, а также при линейном пробировании с одной и несколькими метками.

О надежности агентов использования компьютера
On the Reliability of Computer Use Agents

Apr 20

ByGonzalo Gonzalez-Pumariega, Saaket Agashe, Jiachen Yang, Ang Li, Xin Eric Wang

Агенты, работающие с компьютером, быстро совершенствуются в решении практических задач, таких как навигация в интернете, автоматизация работы с рабочим столом и взаимодействие с программным обеспечением, в некоторых случаях превосходя человеческие возможности. Однако даже при неизменной задаче и модели агент, успешно выполнивший задачу однажды, может потерпеть неудачу при повторном выполнении того же задания. Это поднимает фундаментальный вопрос: если агент способен успешно выполнить задачу один раз, что мешает ему делать это стабильно? В данной работе мы исследуем источники ненадежности компьютерных агентов через три фактора: стохастичность во время выполнения, неоднозначность в постановке задачи и вариабельность поведения агента. Мы анализируем эти факторы в среде OSWorld с помощью многократного выполнения одной и той же задачи вместе с парными статистическими тестами, которые фиксируют изменения на уровне задачи в различных условиях. Наш анализ показывает, что надежность зависит как от того, как специфицированы задачи, так и от того, как варьируется поведение агента между выполнениями. Эти результаты указывают на необходимость оценивать агентов в условиях повторного выполнения, позволять агентам разрешать неоднозначность задачи через взаимодействие и отдавать предпочтение стратегиям, остающимся стабильными при разных запусках.

MathNet: глобальный мультимодальный бенчмарк для математических рассуждений и поиска информации
MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Apr 20

ByShaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba

Решение математических задач остается сложным испытанием для рассуждений больших языковых и мультимодальных моделей, однако существующие бенчмарки ограничены по размеру, языковому охвату и разнообразию задач. Мы представляем MathNet — высококачественный, крупномасштабный, мультимодальный и многоязычный набор данных задач олимпиадного уровня по математике вместе с бенчмарком для оценки математических рассуждений в генеративных моделях и математического поиска в системах на основе эмбеддингов. MathNet охватывает 47 стран, 17 языков и два десятилетия соревнований, включая 30 676 задач, созданных экспертами, с решениями из различных областей. Помимо основного набора данных, мы создали бенчмарк для поиска, состоящий из математически эквивалентных и структурно схожих пар задач, отобранных экспертами. MathNet поддерживает три задачи: (i) решение задач, (ii) математически осознанный поиск и (iii) решение задач, усиленное поиском. Экспериментальные результаты показывают, что даже передовые модели рассуждений (78,4% для Gemini-3.1-Pro и 69,3% для GPT-5) остаются не на высоте, в то время как модели эмбеддингов с трудом находят эквивалентные задачи. Мы также демонстрируем, что производительность генерации, усиленной поиском, сильно зависит от качества поиска; например, DeepSeek-V3.2-Speciale демонстрирует улучшение до 12%, достигая наивысших результатов в бенчмарке. MathNet предоставляет крупнейший высококачественный олимпиадный набор данных вместе с первым бенчмарком для оценки поиска математических задач, и мы публично выпускаем как набор данных, так и бенчмарк по адресу https://mathnet.mit.edu.

VoxMind: Сквозная агентная система устного диалога
VoxMind: An End-to-End Agentic Spoken Dialogue System

Apr 17

ByTianle Liang, Yifu Chen, Shengpeng Ji, Yijun Chen, Zhiyang Jia, Jingyu Lu, Fan Zhuo, Xueyi Pu, Yangzhuo Li, Zhou Zhao

Современные сквозные модели речевого диалога обеспечивают естественное взаимодействие. Однако по мере усложнения запросов пользователей модели, полагающиеся исключительно на разговорные способности, часто не справляются. Поэтому ключевое значение приобретает наделение их агентскими функциями: благодаря использованию инструментов такие модели могут расширять границы своих знаний и эффективнее решать практические задачи. Тем не менее, существующие исследования в основном сосредоточены на базовых возможностях восприятия и генерации, тогда как расширения с помощью инструментов изучены сравнительно слабо. Для преодоления этого разрыва мы представляем VoxMind — интегрированную платформу, предназначенную для оснащения сквозных речевых диалоговых моделей комплексными агентскими способностями. Используя наш специально подготовленный 470-часовой набор данных AgentChat, мы внедряем механизм «Подумай, прежде чем говорить», позволяющий модели интериоризировать структурированные рассуждения как критически важную предпосылку для планирования и генерации ответов. Кроме того, для снижения задержек, вызванных интеграцией масштабных инструментов, мы предлагаем архитектуру динамического управления инструментами на основе множественных агентов. Благодаря асинхронному делегированию задач поиска вспомогательному агенту, согласованному с траекторией рассуждений основной модели, эта система эффективно разделяет задержку вывода и размер набора инструментов. Результаты экспериментов подтверждают, что VoxMind обеспечивает значительное улучшение агентской производительности: по сравнению с сильными базовыми моделями показатель успешного выполнения задач возрастает с 34,88% до 74,57%, превосходя Gemini-2.5-Pro в речевых агентских задачах при сохранении общего качества диалога. Исходный код и связанные данные находятся в открытом доступе по адресу https://github.com/MM-Speech/VoxMind.

GenericAgent: Токен-эффективный саморазвивающийся агент на основе больших языковых моделей за счет максимизации информационной плотности контекста (Версия 1.0)
GenericAgent: A Token-Efficient Self-Evolving LLM Agent via Contextual Information Density Maximization (V1.0)

Apr 18

ByJiaqing Liang, Jinyi Han, Weijia Li, Xinyi Wang, Zhoujia Zhang, Zishang Jiang, Ying Liao, Tingyun Li, Ying Huang, Hao Shen, Hanyu Wu, Fang Guo, Keyi Wang, Zhonghua Hong, Zhiyu Lu, Lipeng Ma, Sihang Jiang, Yanghua Xiao

Агенты на основе больших языковых моделей (LLM), работающие в длительных горизонтах планирования, фундаментально ограничены контекстом. По мере увеличения продолжительности взаимодействий описания инструментов, извлеченные воспоминания и сырая обратная связь от среды накапливаются и вытесняют информацию, необходимую для принятия решений. В то же время полезный опыт, полученный при выполнении задач, часто теряется между эпизодами. Мы утверждаем, что производительность в длительных горизонтах определяется не длиной контекста, а тем, какой объем релевантной для принятия решений информации сохраняется в рамках ограниченного бюджета контекста. Мы представляем GenericAgent (GA) — универсальную саморазвивающуюся систему агентов LLM, построенную вокруг единственного принципа: максимизации информационной плотности контекста. GA реализует это через четыре тесно связанных компонента: минимальный атомарный набор инструментов, обеспечивающий простоту интерфейса; иерархическую память по требованию, которая по умолчанию отображает лишь небольшое высокоуровневое представление; механизм саморазвития, преобразующий проверенные прошлые траектории в переиспользуемые СОП (стандартные операционные процедуры) и исполняемый код; а также слой усечения и сжатия контекста, поддерживающий информационную плотность во время длительных исполнений. В задачах на завершение задач, эффективность использования инструментов, действенность памяти, саморазвитие и веб-серфинг GA стабильно превосходит ведущие системы агентов, используя при этом значительно меньше токенов и взаимодействий, и продолжает развиваться с течением времени. Проект: https://github.com/lsdefine/GenericAgent

OmniScript: К созданию аудиовизуального сценария для длинных кинематографических видео
OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

Apr 13

ByJunfu Pu, Yuxin Chen, Teng Wang, Ying Shan

Современные мультимодальные большие языковые модели (МБЯМ) демонстрируют впечатляющие способности в понимании коротких видеороликов, однако преобразование полнометражных художественных фильмов в детализированные, временно привязанные сценарии остается серьезной проблемой. В данной работе представлена новая задача video-to-script (V2S), направленная на генерацию иерархических, пошаговых сценариев, включающих действия персонажей, диалоги, эмоции и звуковые сигналы. Для решения этой задачи мы создали первую в своем роде аннотированную экспертами эталонную базу и предложили учитывающую временную структуру иерархическую систему оценки. Кроме того, мы представляем OmniScript — 8-миллиардную омнимодальную (аудиовизуальную) языковую модель, специализированную для понимания длинных повествовательных видео. Обучение OmniScript проводится по прогрессивному конвейеру, использующему контролируемую тонкую настройку по методу "рассуждений по цепочке" для анализа сюжета и персонажей с последующим обучением с подкреплением на основе временно сегментированных вознаграждений. Многочисленные эксперименты показывают, что, несмотря на эффективное использование параметров, OmniScript значительно превосходит более крупные открытые модели и демонстрирует результаты, сопоставимые с передними проприетарными моделями, включая Gemini 3-Pro, как по точности временной локализации, так и по семантической точности в различных полях.

Агенты исследуют, но агенты игнорируют: крупным языковым моделям не хватает исследовательского интереса к среде
Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity

Apr 19

ByLeon Engländer, Sophia Althammer, Ahmet Üstün, Matthias Gallé, Tom Sherborne

Предполагается, что агенты на основе больших языковых моделей (LLM) интегрируют наблюдения за средой в свои рассуждения: обнаружение высоко релевантной, но неожиданной информации должно естественным образом приводить к модели, использующей собственные открытия. Мы показываем, что это предположение ложно для современных агентов на основе LLM, которые с трудом отражают или реагируют на неожиданную информацию. На трех тестовых наборах (Terminal-Bench, SWE-Bench, AppWorld) мы внедряем полные решения задач в среды агентов, чтобы намеренно предоставить модели решение задачи. Хотя агенты обнаруживают эти решения в Terminal-Bench в 79–81% запусков, они взаимодействуют с ними или используют их лишь в 37–50% случаев. Этот разрыв наиболее ярко выражен в AppWorld: агенты видят документацию, в которой утверждается, что команда «возвращает полное решение этой задачи», более чем в 90% попыток, но используют это менее чем в 7% испытаний. Мы демонстрируем, что агентам не хватает того, что мы называем **средовой любознательностью** — способности распознавать и исследовать неожиданные, но релевантные наблюдения в ответ на стимулы среды. Мы определяем три основных фактора, влияющих на средовую любознательность: доступные инструменты в каркасе агента, вычислительные ресурсы во время тестирования и распределение обучающих данных. Наши результаты показывают, что конфигурации, максимизирующие любознательность, также достигают наилучшей производительности на немодифицированных тестовых наборах. Тем не менее, даже совместно оптимизированные агенты в большинстве испытаний игнорируют обнаруженные решения: текущие агенты используют среду для получения ожидаемой информации, но не для пересмотра своей стратегии или максимального использования полезных стимулов.

Метаобучение в контексте позволяет осуществлять декодирование мозговой активности между субъектами без дополнительного обучения
Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding

Apr 9

ByMu Nan, Muquan Yu, Weijian Mai, Jacob S. Prince, Hossein Adeli, Rui Zhang, Jiahang Cao, Benjamin Becker, John A. Pyles, Margaret M. Henderson, Chunfeng Song, Nikolaus Kriegeskorte, Michael J. Tarr, Xiaoqing Hu, Andrew F. Luo

Визуальное декодирование сигналов мозга — ключевая задача на стыке компьютерного зрения и нейронауки, требующая методов, связывающих нейронные репрезентации с вычислительными моделями зрения. Общеотраслевой целью является создание обобщаемых моделей, применимых к разным субъектам. Главным препятствием на этом пути служит значительная вариабельность нейронных репрезентаций между индивидами, что до сих пор требовало обучения специализированных моделей или раздельного дообучения для каждого испытуемого. Для решения этой проблемы мы предлагаем мета-оптимизированный подход к семантическому визуальному декодированию фМРТ, который обобщается на новых субъектов без какого-либо дообучения. Просто conditioning на небольшом наборе примеров "изображение-активация мозга" нового индивида позволяет нашей модели быстро выводить его уникальные паттерны нейронного кодирования для обеспечения надежного и эффективного визуального декодирования. Наш подход явно оптимизирован для in-context обучения модели кодирования нового субъекта и выполняет декодирование через иерархический вывод, инвертируя энкодер. Сначала для нескольких областей мозга мы оцениваем параметры энкодера визуального отклика для каждого вокселя, конструируя контекст по множеству стимулов и ответов. Затем мы строим контекст, состоящий из параметров энкодера и значений отклика по множеству вокселей, для выполнения агрегированной функциональной инверсии. Мы демонстрируем сильное обобщение между субъектами и сканерами для различных визуальных архитектур без переобучения или дообучения. Более того, наш подход не требует ни анатомического выравнивания, ни перекрытия стимулов. Данная работа представляет собой важный шаг к созданию обобщаемой фундаментальной модели для неинвазивного декодирования мозга.

Обучение агентов на основе больших языковых моделей для спонтанной самоэволюции без вознаграждений через исследование знаний о мире
Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration

Apr 20

ByQifan Zhang, Dongyang Ma, Tianqing Fang, Jia Li, Jing Tang, Nuo Chen, Haitao Mi, Yan Wang

Современные агенты в основном «самоэволюционируют», следуя вознаграждениям и правилам, заданным человеком. Однако этот процесс остается фундаментально зависимым от внешнего контроля: без человеческого руководства эволюция прекращается. В данной работе мы обучаем агентов обладать внутренней мета-эволюционной способностью — спонтанно изучать незнакомые среды до выполнения задачи. Для формирования этой способности мы разработали механизм вознаграждения, основанный на результате, который оценивает, насколько сгенерированные агентом знания о мире повышают его успешность в последующих задачах. Этот сигнал вознаграждения используется исключительно на этапе обучения, чтобы научить модель эффективно исследовать и обобщать информацию. На этапе вывода агент не требует внешних вознаграждений или инструкций. Он спонтанно выполняет аутохтонную самоэволюцию, адаптируясь к неизвестным средам с помощью внутренних параметров. Применение этого подхода к моделям Qwen3-30B и Seed-OSS-36B привело к 20% росту производительности в задачах WebVoyager и WebWalker. Наиболее впечатляюще то, что сгенерированные знания о мире позволили компактной модели Qwen3 на 14 млрд параметров превзойти модель Gemini-2.5-Flash без дополнительной помощи, устанавливая новую парадигму по-настоящему эволюционирующих агентов.

Стратегема: Обучение переносимым рассуждениям посредством самоигры с модуляцией траекторий
Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

Apr 20

ByXiachong Feng, Deyi Yin, Xiaocheng Feng, Yi Jiang, Libo Qin, Yangfan Ye, Lei Huang, Weitao Ma, Qiming Li, Yuxuan Gu, Bing Qin, Lingpeng Kong

Игры представляют убедительную парадигму для развития общих способностей к рассуждению в языковых моделях, поскольку они по своей природе требуют стратегического планирования, вероятностного вывода и адаптивного принятия решений. Однако существующие подходы к самообучению полагаются исключительно на конечные результаты игры, не предоставляя механизма для различения переносимых паттернов рассуждений от специфичных для игры эвристик. Мы представляем STRATAGEM, который решает два фундаментальных барьера для переноса рассуждений: *специфичность домена*, когда изученные паттерны остаются привязанными к семантике игры, и *контекстуальный стазис*, когда статичные игровые контексты не способствуют развитию прогрессивного рассуждения. STRATAGEM выборочно усиливает траектории, демонстрирующие абстрактные, не зависящие от домена рассуждения, с помощью Коэффициента Переносимости Рассуждений, одновременно стимулируя развитие адаптивного мышления посредством Награды за Эволюцию Рассуждений. Эксперименты на наборах данных по математическим рассуждениям, общим рассуждениям и генерации кода демонстрируют существенные улучшения, с особенно значительным прогрессом в решении задач математики уровня соревнований, где критически важно многошаговое рассуждение. Исследования методом абляции и оценка человеком подтверждают, что оба компонента вносят вклад в формирование переносимых навыков рассуждения.

Умножение в мультимодальных LLM: вычисления с текстовыми, визуальными и аудиовходами
Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

Apr 20

BySamuel G. Balter, Ethan Jerzak, Connor T. Jerzak

Мультимодальные большие языковые модели способны точно воспринимать числовую информацию из различных модальностей, однако не справляются с точным умножением многозначных чисел, когда одна и та же арифметическая задача представлена в виде цифр, числительных, изображений или аудио. Поскольку существующие бенчмарки часто не содержат систематически парных примеров across модальностями, остается сложно сравнить подлинные арифметические ограничения внутри семейств моделей и между ними. Поэтому мы представляем контролируемый мультимодальный бенчмарк для умножения, который факторно варьирует длину чисел, разреженность цифр, представление (например, цифры против числительных) и модальность (текст, визуализированные изображения, аудио), с парными примерами из воспроизводимого генератора. Мы также определяем арифметическую нагрузку, C, как произведение общего количества цифр и количества ненулевых цифр — компактный, механистически обоснованный прокси для количества операций. По всем оценкам, точность резко падает с ростом C, часто приближаясь к нулю при C > 100. Действительно, C остается прогностическим для производительности across модальностями и моделями, с R-квадрат часто > 0.5, приближаясь к значению для более сложных мер арифметической нагрузки, которые подсчитывают количество промежуточных арифметических шагов. Отдельная декомпозиция "восприятие versus вычисление" показывает, что мультимодальная деградация является в первую очередь вычислительной, а не перцептивной: на проверках с совпадающим восприятием модели демонстрируют почти идеальную точность (> 99%) across модальностями, даже когда точность умножения падает. Помимо измерения случаев, когда модели ошибаются, мы исследуем, каким процедурам они склонны следовать. Мы вводим зонд потерь с принудительным завершением, который оценивает эвристически-специфичные префиксы рассуждений — включая столбиковое умножение, дистрибутивную декомпозицию и округление/компенсацию. Здесь декомпозиция предпочтительна как в текстовой, так и в визуальной модальностях; эвристически-специфичные LoRA-адаптеры производят почти ортогональные обновления, но ухудшают точность, что указывает на то, что базовая модель поддерживает хорошо настроенный внутренний маршрутизатор.

Переосмысление проблемы: бенчмарк семантических рассуждений для языковых моделей
Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models

Apr 17

ByYang Liu, Hongming Li, Melissa Xiaohui Qin, Qiankun Liu, Chao Huang

Мы представляем SemanticQA — набор инструментов для оценки языковых моделей (ЯМ) в задачах обработки семантических фраз. Данный бенчмарк объединяет существующие ресурсы по многокомпонентным выражениям (МВЕ) и реорганизует их в единую тестовую среду. Он охватывает как общие лексические явления, такие как лексические коллокации, так и три детализированные категории: идиоматические выражения, именные композиты и глагольные конструкции. С помощью SemanticQA мы оцениваем ЯМ различных архитектур и масштабов в задачах извлечения, классификации и интерпретации, а также в композициях последовательных задач. Мы выявляем значительные вариации производительности, особенно в заданиях, требующих семантического рассуждения, что подчеркивает различия в эффективности reasoning и семантическом понимании ЯМ. Эти наблюдения дают основу для развития языковых моделей с более глубоким пониманием нетривиальных семантических фраз. Инструментарий оценки и данные SemanticQA доступны по адресу https://github.com/jacklanda/SemanticQA.

Точный бенчмарк отладки: Ваша модель отлаживает или перегенерирует?
Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

Apr 19

ByWang Bill Zhu, Miaosen Chai, Shangshang Wang, Yejia Liu, Song Bian, Honghua Dong, Willie Neiswanger, Robin Jia

В отличие от автодополнения кода, отладка требует локализации ошибок и применения целевых исправлений. Мы наблюдаем, что передовые большие языковые модели (LLM) часто воспроизводят корректные, но избыточно отредактированные решения в процессе отладки. Чтобы оценить, насколько LLM отстоят от точной отладки, мы представляем фреймворк Precise Debugging Benchmark (PDB), который автоматически преобразует любой набор данных по программированию в бенчмарк для отладки с оценкой, учитывающей точность. PDB генерирует программы с ошибками путем синтеза верифицированных атомарных багов и комбинирования их в программы с множественными ошибками. Мы определяем две новые метрики: точность на уровне правок и полноту на уровне ошибок, которые измеряют, сколько необходимых исправлений было сделано и сколько ошибок было устранено. Мы публикуем два оценочных бенчмарка: PDB-Single-Hard для ошибок в одной строке и PDB-Multi для многострочных ошибок. Эксперименты показывают, что передовые модели, такие как GPT-5.1-Codex и DeepSeek-V3.2-Thinking, достигают уровня прохождения модульных тестов выше 76%, но демонстрируют точность ниже 45%, даже при явной инструкции выполнять минимальную отладку. Наконец, мы показываем, что итеративные и агентные стратегии отладки не приводят к существенному улучшению точности или полноты, что подчеркивает необходимость переосмысления пост-тренировочных конвейеров для моделей, работающих с кодом.

За пределами доминирования текста: изучение модальных предпочтений омнимодальных больших языковых моделей
Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models

Apr 18

ByXinru Yan, Boxi Cao, Yaojie Lu, Hongyu Lin, Weixiang Zhou, Le Sun, Xianpei Han

Родные омнимодальные большие языковые модели (OLLM) перешли от конвейерных архитектур к унифицированным пространствам представлений. Однако эта нативная интеграция порождает критическое, но малоизученное явление: модальное предпочтение. Чтобы заполнить этот пробел, мы сначала систематически количественно оцениваем модальное предпочтение OLLM с помощью нового конфликтного бенчмарка и метрики частоты выбора модальности. Наша оценка десяти репрезентативных OLLM выявляет заметный сдвиг парадигмы: в отличие от «доминирования текста» у традиционных VLM, большинство OLLM демонстрируют выраженное визуальное предпочтение. Чтобы глубже понять лежащий в основе механизм, мы проводим послойный анализ и показываем, что такое модальное предпочтение не является статичным, а прогрессивно возникает в средних и поздних слоях. Опираясь на эти инсайты, мы используем эти внутренние сигналы для диагностики кросс-модальных галлюцинаций, достигая конкурентоспособной производительности на трех downstream многомодальных бенчмарках без данных, специфичных для задачи. Наша работа предоставляет как механистическое понимание, так и практический инструмент для создания более надежных OLLM. Наш код и связанные ресурсы общедоступны по адресу: https://github.com/icip-cas/OmniPreference

MedConclusion: Бенчмарк для генерации биомедицинских выводов из структурированных рефератов
MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

Apr 7

ByWeiyue Li, Ruizhi Qian, Yi Li, Yongce Li, Yunfan Long, Jiahui Cai, Yan Luo, Mengyu Wang

Крупные языковые модели (LLMs) активно исследуются для решения задач, требующих сложных рассуждений, однако ресурсы для проверки их способности делать научные выводы на основе структурированных биомедицинских данных остаются ограниченными. Мы представляем MedConclusion — масштабный набор данных, содержащий 5,7 млн структурированных рефератов из PubMed для генерации биомедицинских заключений. Каждый пример связывает разделы реферата, не содержащие заключения, с оригинальным заключением, написанным автором, что обеспечивает естественный надзор для логического перехода от доказательств к выводам. MedConclusion также включает метаданные на уровне журналов, такие как биомедицинская категория и SJR (SCImago Journal Rank), что позволяет проводить анализ подгрупп в различных биомедицинских областях. В рамках начального исследования мы оцениваем различные LLM в условиях prompting для заключения и суммаризации, а также оцениваем выходные данные с помощью как метрик, основанных на эталоне, так и подхода LLM-as-a-judge. Мы обнаружили, что написание заключения поведенчески отличается от написания резюме, что сильные модели остаются тесно сгруппированными согласно текущим автоматическим метрикам, и что личность "судьи" (модели-оценщика) может существенно смещать абсолютные оценки. MedConclusion предоставляет многократно используемый ресурс данных для изучения логического перехода от научных доказательств к выводам. Наш код и данные доступны по адресу: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.

River-LLM: Крупная языковая модель с плавным выходом на основе разделения ключей-значений (KV Share)
River-LLM: Large Language Model Seamless Exit Based on KV Share

Apr 20

ByYingtao Shen, An Zou

Крупные языковые модели (LLM) продемонстрировали выдающуюся производительность в различных областях, но всё чаще сталкиваются с ограничениями из-за высокой задержки вывода. Ранний выход (Early Exit) стал перспективным решением для ускорения вывода за счёт динамического пропуска избыточных слоёв. Однако в архитектурах, использующих только декодер, эффективность раннего выхода сильно ограничивается проблемой отсутствия KV-кэша (KV Cache Absence), когда пропущенные слои не предоставляют необходимые исторические состояния для последующих токенов. Существующие решения, такие как перевычисление или маскирование, либо вносят значительные задержки, либо приводят к серьёзной потере точности, не позволяя преодолеть разрыв между теоретическим сокращением слоёв и практическим ускорением в реальном времени. В данной статье мы предлагаем River-LLM — беспарадигменную инфраструктуру, обеспечивающую бесшовный ранний выход на уровне токенов. River-LLM вводит лёгкий KV-Shared Exit River, который позволяет естественным образом генерировать и сохранять отсутствующий KV-кэш базовой модели в процессе выхода, устраняя необходимость в затратных операциях восстановления. Кроме того, мы используем схожесть переходов состояний внутри блоков декодера для прогнозирования кумулятивных KV-ошибок и принятия точных решений о выходе. Многочисленные эксперименты на задачах математических рассуждений и генерации кода показывают, что River-LLM обеспечивает практическое ускорение в 1.71–2.16 раза при сохранении высокого качества генерации.

Геометрическая когерентность CRISPR-возмущений на уровне отдельных клеток раскрывает регуляторную архитектуру и предсказывает клеточный стресс
Geometric coherence of single-cell CRISPR perturbations reveals regulatory architecture and predicts cellular stress

Apr 17

ByPrashant C. Raju

Генетическая инженерия достигла выдающейся точности на уровне последовательностей, однако предсказание транскриптомного состояния, которое клетка займет после воздействия, остается нерешенной проблемой. Скрининги CRISPR на уровне единичных клеток измеряют, насколько далеко клетки отходят от своего невозмущенного состояния, но эта величина эффекта игнорирует фундаментальный вопрос: движутся ли клетки согласованно? Два воздействия с одинаковой величиной эффекта могут приводить к качественно разным результатам, если одно направляет клетки когерентно по общей траектории, а другое рассеивает их в пространстве экспрессии. Мы вводим метрику геометрической стабильности Shesha, которая количественно определяет направленную когерентность ответов единичных клеток на воздействие как среднее косинусное сходство между векторами смещения отдельных клеток и средним направлением воздействия. На пяти наборах данных CRISPR (более 2200 воздействий, включая CRISPRa, CRISPRi и пуловые скрининги) стабильность сильно коррелирует с величиной эффекта (ρ Спирмена = 0.75–0.97), с калиброванной кросс-наборной корреляцией 0.97. Ключевым моментом является то, что случаи рассогласования, когда две метрики расходятся, выявляют регуляторную архитектуру: плейотропные мастер-регуляторы, такие как CEBPA и GATA1, платят «геометрическую цену», вызывая большие, но некогерентные смещения, тогда как факторы, специфичные для линии, такие как KLF1, порождают строго координированные ответы. После поправки на величину эффекта геометрическая нестабильность независимо ассоциирована с повышенной активацией шаперонов (HSPA5/BiP; ρ_парциальный = -0.34 и -0.21 по наборам данных), и квадрант высокой стабильности/высокого стресса систематически обеднен. Взаимосвязь величины эффекта и стабильности сохраняется в эмбеддингах базовой модели scGPT, подтверждая, что это свойство биологического пространства состояний, а не линейной проекции. Стабильность ответа на воздействие предоставляет дополнительную ось для приоритизации хитов в скринингах, контроля качества фенотипа в клеточном производстве и оценки предсказаний in silico воздействий.

EvoMaster: Базовый фреймворк агентов для создания эволюционирующих автономных научных агентов в промышленных масштабах
EvoMaster: A Foundational Agent Framework for Building Evolving Autonomous Scientific Agents at Scale

Apr 19

ByXinyu Zhu, Yuzhu Cai, Zexi Liu, Cheng Wang, Fengyang Li, Wenkai Jin, Wanxu Liu, Zehao Bing, Bingyang Zheng, Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xianghe Pang, Yaxin Du, Tingjia Miao, Yuzhi Zhang, Ruoxue Liao, Zhaohan Ding, Linfeng Zhang, Yanfeng Wang, Weinan E, Siheng Chen

Сближение больших языковых моделей и агентов знаменует новую эру научных открытий: Агентно-ориентированную Науку (Agentic Science). Хотя научный метод по своей природе итеративен, существующие фреймворки для агентов остаются преимущественно статичными, узкоспециализированными и неспособными учиться на основе проб и ошибок. Чтобы устранить этот разрыв, мы представляем EvoMaster — базовый фреймворк эволюционирующих агентов, созданный специально для Масштабируемой Агентно-ориентированной Науки. Руководствуясь ключевым принципом непрерывного саморазвития, EvoMaster позволяет агентам итеративно уточнять гипотезы, проводить самокритику и постепенно накапливать знания в ходе экспериментальных циклов, достоверно отражая процесс человеческого научного поиска. Что особенно важно, будучи предметно-независимой базовой платформой, EvoMaster исключительно легко масштабируется — разработчики могут создавать и развертывать высокопроизводительных, саморазвивающихся научных агентов для произвольных дисциплин примерно в 100 строках кода. На основе EvoMaster мы создали экосистему SciMaster для таких областей, как машинное обучение, физика и наука общего профиля. Оценки на четырех авторитетных тестовых наборах (Humanity's Last Exam, MLE-Bench Lite, BrowseComp и FrontierScience) демонстрируют, что EvoMaster достигает наивысших результатов в 41.1%, 75.8%, 73.3% и 53.3% соответственно. Он всесторонне превосходит базовую универсальную модель OpenClaw с относительным улучшением показателей от +159% до +316%, что убедительно подтверждает его эффективность и универсальность в качестве передового базового фреймворка для следующего поколения автономных научных открытий. EvoMaster доступен по адресу https://github.com/sjtu-sai-agents/EvoMaster.

MARCO: Навигация в невидимом пространстве семантических соответствий
MARCO: Navigating the Unseen Space of Semantic Correspondence

Apr 20

ByClaudia Cuttano, Gabriele Trivigno, Carlo Masone, Stefan Roth

Последние достижения в области семантического соответствия основаны на архитектурах с двойным кодировщиком, сочетающих DINOv2 с диффузионными основами. Несмотря на точность, эти миллиардные модели плохо обобщаются за пределы обучающих ключевых точек, выявляя разрыв между производительностью на бенчмарках и практической применимостью, где запрашиваемые точки редко совпадают с теми, что встречались при обучении. На основе DINOv2 мы представляем MARCO — унифицированную модель для обобщаемого соответствия, основанную на новой системе обучения, которая улучшает как точную локализацию, так и семантическое обобщение. Благодаря сочетанию coarse-to-fine подхода, повышающего пространственную точность, с框架 само-дистилляции, расширяющей разреженную разметку за пределы аннотированных областей, наш метод преобразует несколько ключевых точек в плотные семантически согласованные соответствия. MARCO устанавливает новый state-of-the-art на SPair-71k, AP-10K и PF-PASCAL с улучшениями, которые усиливаются на порогах точной локализации (+8.9 PCK@0.01), демонстрируют наилучшее обобщение на неизвестные ключевые точки (+5.1, SPair-U) и категории (+4.7, MP-100), оставаясь при этом в 3 раза меньше и в 10 раз быстрее диффузионных подходов. Код доступен по адресу https://github.com/visinf/MARCO.

Моделирование скрытых предпочтений для кросс-сессионного персонализированного вызова инструментов
Latent Preference Modeling for Cross-Session Personalized Tool Calling

Apr 20

ByYejin Yoon, Minseo Kim, Taeuk Kim

Пользователи часто опускают важные детали в запросах к агентам на основе больших языковых моделей (LLM), что приводит к неполным входным данным для использования инструментов. Это создает фундаментальную проблему для агентов, усиленных инструментами, поскольку выполнение API-запросов обычно требует полного набора аргументов, что подчеркивает необходимость персонализированного вызова инструментов. Для изучения данной проблемы мы представляем MPT — эталонный набор, содержащий 265 диалогов в нескольких сессиях, которые охватывают три задачи: восстановление предпочтений, выявление предпочтений и перенос предпочтений. Мы также предлагаем PRefine, метод с расширенной памятью на этапе тестирования, который представляет предпочтения пользователя как развивающиеся гипотезы. С помощью цикла "генерация–проверка–уточнение" метод извлекает повторно используемые ограничения из истории и повышает точность вызова инструментов, используя при этом всего 1.24% токенов от объема, требуемого при полном промптинге истории. Эти результаты показывают, что надежная персонализация в агентских системах зависит от памяти, которая фиксирует причины выбора пользователя, а не только сами выборы.

Моделирование множественных стратегий поддержки в рамках одного реплико-оборота для эмоционально поддерживающих диалогов
Modeling Multiple Support Strategies within a Single Turn for Emotional Support Conversations

Apr 20

ByJie Zhu, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Jinsong Su, Chi Zhang, Fang Kong

Диалог эмоциональной поддержки (ESC) направлен на помощь людям, испытывающим дистресс, путем генерации эмпатичного и поддерживающего общения. В то время как предыдущие работы обычно предполагают, что каждая реплика поддержки соответствует одной стратегии, в реальной поддерживающей коммуникации зачастую используется несколько стратегий в рамках одного высказывания. В данной статье мы переосмысливаем задачу ESC, формулируя ее как генерацию высказываний с множественными стратегиями, где каждое высказывание может содержать одну или несколько пар "стратегия-ответ". Мы предлагаем два метода генерации: All-in-One, который предсказывает все пары "стратегия-ответ" за один шаг декодирования, и One-by-One, который итеративно генерирует пары до завершения. Оба метода дополнительно улучшены с помощью когнитивного рассуждения, направляемого обучением с подкреплением, для улучшения выбора стратегий и составления ответов. Мы оцениваем наши модели на наборе данных ESConv в условиях как уровня высказывания, так и уровня диалога. Экспериментальные результаты показывают, что наши методы эффективно моделируют высказывания с множественными стратегиями и приводят к повышению качества поддержки и успешности диалога. Насколько нам известно, данная работа представляет первое систематическое эмпирическое доказательство того, что разрешение использования нескольких стратегий поддержки в рамках одного высказывания является как осуществимым, так и полезным для диалогов эмоциональной поддержки. Весь код и данные будут общедоступны по адресу https://github.com/aliyun/qwen-dianjin.

Геометрическая канарейка: прогнозирование управляемости и обнаружение дрейфа через устойчивость представлений
The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability

Apr 20

ByPrashant C. Raju

Надежное развертывание языковых моделей требует двух, казалось бы, различных, но имеющих общую геометрическую основу способностей: прогнозирования того, будет ли модель поддаваться целевому поведенческому контролю, и обнаружения деградации ее внутренней структуры. Мы показываем, что геометрическая стабильность — согласованность структуры попарных расстояний представлений — решает обе задачи. Контролируемые варианты метода Shesha, измеряющие геометрическую стабильность, выровненную по задаче, предсказывают линейную управляемость с почти идеальной точностью (ρ= 0.89–0.97) для 35–69 моделей эмбеддингов и трех задач NLP, фиксируя уникальную дисперсию поверх разделимости классов (частный ρ= 0.62–0.76). Обнаруживается ключевое различие: неконтролируемая стабильность полностью непригодна для прогнозирования управляемости в реальных задачах (ρ≈ 0.10), что показывает важность выравнивания по задаче. Однако неконтролируемая стабильность превосходно справляется с обнаружением дрейфа, фиксируя почти вдвое большее геометрическое изменение по сравнению с CKA в процессе посттренировочного выравнивания (до 5.23 раз в Llama), при этом обеспечивая более раннее предупреждение в 73% моделей и поддерживая в 6 раз более низкий уровень ложных срабатываний, чем метод Прокруста. Вместе контролируемая и неконтролируемая стабильность формируют взаимодополняющие диагностические инструменты для жизненного цикла развертывания LLM: первый — для оценки управляемости до развертывания, второй — для мониторинга после него.

Когда фон имеет значение: взлом медицинских моделей обработки зрения и языка с помощью трансферных атак
When Background Matters: Breaking Medical Vision Language Models by Transferable Attack

Apr 19

ByAkash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen

Визуально-языковые модели (VLM) все чаще применяются в клинической диагностике, однако их устойчивость к атакам противника остается малоизученной, что создает серьезные риски. Существующие медицинские атаки ориентированы на второстепенные цели, такие как кража моделей или состязательная донастройка, тогда как переносимые атаки с натуральных изображений создают видимые искажения, которые клиницисты легко обнаруживают. Для решения этой проблемы мы предлагаем MedFocusLeak — высокопереносимую многомодальную атаку в черном ящике, которая вызывает ошибочные, но клинически правдоподобные диагнозы, сохраняя возмущения незаметными. Метод внедряет скоординированные возмущения в недиагностические фоновые области и использует механизм отвлечения внимания для смещения фокуса модели от патологических зон. Масштабные оценки по шести модальностям медицинской визуализации показывают, что MedFocusLeak демонстрирует передовую производительность, генерируя вводящие в заблуждение, но реалистичные диагностические выводы для различных VLM. Мы также представляем унифицированную систему оценки с новыми метриками, которые совместно измеряют успешность атаки и достоверность изображений, выявляя критическую уязвимость в способностях к рассуждению у современных клинических VLM.

MNAFT: модально-нейронная адаптивная настройка мультимодальных больших языковых моделей для перевода изображений
MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation

Apr 18

ByBo Li, Ningyuan Deng, Tianyu Dong, Shaobo Wang, Shaolin Zhu, Lijie Wen

Мультимодальные большие языковые модели (MБЯМ) демонстрируют впечатляющие возможности, однако зачастую они не могут эффективно захватывать мелкозернистую текстовую информацию на изображениях, которая критически важна для точного перевода изображений. Это часто приводит к модальному разрыву между визуальными текстовыми входами и текстовыми входами/выходами для перевода изображений. Существующие методы, в основном основанные на инструктивной тонкой настройке, несут риск избыточности параметров предобученных знаний, что ограничивает обобщающую способность. Для решения этой проблемы мы представляем модульно-нейронно-осознанную тонкую настройку (MNAFT) — новый подход, который использует преимущества специализированных ролей отдельных нейронов внутри MБЯМ для улучшения перевода изображений. MNAFT идентифицирует языково-независимые и языково-специфичные нейроны как в визуальных, так и в языковых модулях с помощью инструктивно-управляемого анализа активации, оценивая их важность в различных задачах перевода. Затем мы выполняем выборочную тонкую настройку, обновляя только параметры языково-специфичных и языково-независимых нейронов в выбранных слоях, релевантных целевой задаче, при этом сохраняя знания, закодированные в других нейронах и слоях. Наши обширные эксперименты на нескольких наборах данных показывают, что MNAFT значительно превосходит современные методы перевода изображений, включая каскадные модели, стандартную полную тонкую настройку и параметрически эффективные методы настройки. Кроме того, мы предоставляем всесторонний анализ, включая визуализацию активаций нейронов и кластерных паттернов, чтобы пролить свет на роли различных групп нейронов в посредничестве межмодального понимания и обеспечении точного языково-специфичного перевода.

Моделирование разреженных и кластерных наблюдений уязвимостей: прогнозирование при ограничениях данных
Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints

Apr 17

ByCedric Bonhomme, Alexandre Dulaunoy

Понимание и прогнозирование активности, связанной с уязвимостями, является одной из основных проблем в области киберразведки. Данное исследование изучает возможность прогнозирования во времени таких событий, как публикация доказательств концепции, шаблонов обнаружения или онлайн-обсуждений, связанных с уязвимостями. Основываясь на нашей предыдущей работе над VLAI — трансформерной моделью, предсказывающей серьезность уязвимости по текстовым описаниям, — мы исследуем, могут ли оценки серьезности улучшить прогнозирование временных рядов в качестве экзогенных переменных. Мы оцениваем несколько подходов к краткосрочному прогнозированию количества событий на одну уязвимость. Во-первых, мы тестируем модели SARIMAX с преобразованием log(x+1) и без него, а также с использованием показателей серьезности, полученных от VLAI. Хотя эти корректировки дают ограниченное улучшение, SARIMAX в целом плохо подходит для разреженных, коротких и всплесковых данных по уязвимостям. На практике прогнозы часто дают излишне широкие доверительные интервалы, а иногда и нереалистичные отрицательные значения. Для лучшего учета дискретного и событийно-ориентированного характера наблюдений мы затем исследуем методы, основанные на моделировании счетов, такие как регрессия Пуассона. Первые результаты показывают, что эти модели дают более стабильные и интерпретируемые прогнозы, особенно когда данные агрегируются еженедельно. Мы также рассматриваем более простые операционные альтернативы, включая функции экспоненциального затухания для коротких горизонтов прогнозирования, чтобы оценивать будущую активность без необходимости в длинных исторических рядах. В целом, данное исследование подчеркивает как потенциал, так и ограничения прогнозирования редких и всплесковых киберсобытий и предлагает практические рекомендации по интеграции прогнозной аналитики в рабочие процессы анализа уязвимостей.

MTR-DuplexBench: К всесторонней оценке многотуровых диалогов в полнодуплексных речевых языковых моделях
MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

Apr 17

ByHe Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Haoli Bai, Shaohua Ma, Irwin King

Полнодуплексные речевые языковые модели (FD-SLMs) обеспечивают взаимодействие в реальном времени с перекрывающейся речью, предлагая более динамичный пользовательский опыт по сравнению с традиционными полудуплексными моделями. Однако существующие бенчмарки в основном сосредоточены на оценке одиночных раундов взаимодействия, игнорируя сложности многораундовой коммуникации. Оценка FD-SLMs в многораундовых сценариях сопряжена со значительными трудностями, включая размытые границы реплик в коммуникации и несогласованность контекста во время вывода модели. Кроме того, существующие бенчмарки часто фокусируются исключительно на оценке диалоговых характеристик, упуская другие важные аспекты. Для устранения этих пробелов мы представляем MTR-DuplexBench — новый бенчмарк, разработанный для комплексной многораундовой оценки FD-SLMs. MTR-DuplexBench не только сегментирует непрерывные полнодуплексные диалоги на отдельные реплики для пошаговой оценки, но и включает различные аспекты анализа, такие как диалоговые характеристики, качество диалога, следование инструкциям и безопасность. Результаты экспериментов показывают, что современные FD-SLMs испытывают трудности с поддержанием стабильной производительности в течение множества раундов и по различным оценочным измерениям, что подчеркивает необходимость и эффективность нашего бенчмарка. Код и данные доступны по адресу: https://github.com/ZhangHe0918/MTR-DuplexBench

Forge-UGC: оптимизация эффектов и регистрово-графовый движок для универсального графового компилятора
Forge-UGC: FX optimization and register-graph engine for universal graph compiler

Apr 14

BySatyam Kumar, Saurabh Jha

Мы представляем Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation) — компилятор из четырех фаз для развертывания трансформеров на гетерогенных аппаратных ускорителях, протестированный на NPU Intel AI Boost. Существующие фреймворки, такие как OpenVINO и ONNX Runtime, часто используют непрозрачные конвейеры компиляции, ограниченную видимость на уровне проходов и слабое управление буферами, что может приводить к высоким затратам на компиляцию и накладным расходам времени выполнения. Forge-UGC решает эти проблемы благодаря аппаратно-независимому дизайну, который разделяет захват графа, оптимизацию, понижение промежуточного представления и планирование для бэкенда. Фаза 1 захватывает графы с помощью torch.export на уровне операторов ATen, поддерживая современные компоненты трансформеров, такие как ротационные позиционные эмбеддинги, групповое квари-внимание и SwiGLU, без ручной декомпозиции. Фаза 2 применяет шесть проходов оптимизации: удаление мертвого кода, устранение общих подвыражений, свертку констант, слияние внимания, слияние операторов и оптимизацию расположения данных, сокращая количество узлов графа на 14,2–21,9%. Фаза 3 понижает оптимизированный граф в типизированное промежуточное представление с явными назначениями виртуальных регистров. Фаза 4 выполняет анализ активности, линейное сканирующее распределение буферов (сокращая пиковое количество буферов на 30–48%) и планирование с учетом устройства (сокращая переходы NPU-CPU на 42–65%). На шести семействах моделей от 125 млн до 8 млрд параметров, оцененных на WikiText-103 и GLUE, Forge-UGC демонстрирует ускорение компиляции в 6,9–9,2 раза по сравнению с OpenVINO и ONNX Runtime, снижение задержки вывода на 18,2–35,7% и снижение энергии на вывод на 30,2–40,9%. Точность сохраняется: максимальные абсолютные различия логитов ниже 2,1e-5, а расхождение Кульбака-Лейблера ниже 8,4e-9. Мы также вводим коэффициент выигрыша от слияния (Fusion Gain Ratio), индекс эффективности компиляции (Compilation Efficiency Index) и профилирование выполнения для каждого прохода для систематической оценки конвейеров компиляции NPU.

Значимость и анализ устойчивости взаимодействия генов и окружающей среды с использованием RGxEStat
Significance and Stability Analysis of Gene-Environment Interaction using RGxEStat

Apr 3

ByMeng'en Qin, Zhe Li, Xiaohui Yang

Взаимодействие генотип-среда (G×E) влияет на продуктивность генотипов в различных условиях окружающей среды, снижая предсказуемость фенотипов в целевых ареалах. Глубокий анализ взаимодействий G×E позволяет определить, как генетические преимущества или дефекты экспрессируются или подавляются в специфических условиях среды, что способствует генетическому отбору и совершенствованию селекционных практик. В данной статье представлены две ключевые модели для исследования взаимодействий G×E. В частности, включены: анализ значимости на основе модели со смешанными эффектами для определения существенного влияния генов или взаимодействий G×E на фенотипические признаки; анализ стабильности, который дополнительно исследует интерактивные взаимосвязи между генами и средой, а также относительное превосходство или нестабильность генотипов в различных условиях. Кроме того, представлен RGxEStat — легковесный интерактивный инструмент, разработанный авторами и интегрирующий построение, решение и визуализацию упомянутых моделей. Созданный для избавления селекционеров и агрономов от необходимости изучения сложного программирования на SAS или R, RGxEStat предоставляет удобный интерфейс для оптимизированного анализа селекционных данных, значительно ускоряя исследовательские циклы. Коды и наборы данных доступны по адресу https://github.com/mason-ching/RGxEStat.

Возврат к ремонту: минимальная сеть шумоподавления для обнаружения аномалий во временных рядах
Back to Repair: A Minimal Denoising Network\ for Time Series Anomaly Detection

Apr 19

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

Мы представляем JuRe (Just Repair) — минималистичную сеть для удаления шума в задачах обнаружения аномалий во временных рядах, которая демонстрирует ключевой вывод: архитектурная сложность избыточна, когда целевая функция обучения корректно реализует принцип проекции на многообразие. JuRe состоит из одного остаточного блока с depthwise-разделимой сверткой и скрытой размерностью 128, обучаемого для восстановления искаженных окон временных рядов; на этапе вывода оценка производится с помощью фиксированной параметризации структурной функции рассогласования. Несмотря на отсутствие механизма внимания, латентных переменных и состязательных компонентов, JuRe занимает второе место в многомерном бенчмарке TSB-AD (AUC-PR 0.404, 180 рядов, 17 наборов данных) и второе место в архиве UCR для одномерных рядов по метрике AUC-PR (0.198, 250 рядов), опережая все нейросетевые базовые методы по AUC-PR и VUS-PR. Абляционный анализ на TSB-AD выявил, что ключевым фактором является искажение данных во время обучения (ΔAUC-PR = 0.047 при его удалении), подтверждая, что качество обнаружения определяется целевой функцией денизинга, а не емкостью сети. Попарные тесты Уилкоксона показали статистическую значимость превосходства над 21 из 25 базовых методов на TSB-AD. Код доступен по ссылке https://github.com/iis-esslingen/JuRe.

Терминальный ключ: набор данных из 331 среды, уязвимой для взлома вознаграждений, и 3 632 траекторий эксплуатации
Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories

Apr 19

ByIvan Bercovich, Ivgeni Segal, Kexun Zhang, Shashwat Saxena, Aditi Raghunathan, Ziqian Zhong

Мы представляем Terminal Wrench — набор из 331 тестовой среды для терминальных агентов, заимствованный из популярных открытых бенчмарков, которые демонстративно уязвимы к взлому систем вознаграждения. Набор данных включает 3 632 траектории взлома и 2 352 легитимные базовые траектории, полученные на трех передовых моделях (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Каждая запись сохраняет оригинальное условие задачи вместе с полными траекториями атаки, показывающими, как был обойден верификатор. Также включены случаи, когда задача не была решена предусмотренным способом. Задачи охватывают системное администрирование, машинное обучение, разработку программного обеспечения и задачи безопасности; эксплойты варьируются от простой подмены вывода до интроспекции стека, модификации стандартных библиотек и перехвата управления бинарными файлами на уровне руткитов. Ключевым моментом является то, что эти эксплойты специфичны для каждой задачи, а не для системы оценки, что затрудняет их исправление. Мы также представляем исследование мониторинга, в котором траектории взлома очищаются или лишаются трасс рассуждений, а затем оцениваются LLM-судией, показывая, что обнаружение значительно ухудшается при удалении цепочки рассуждений (AUC падает с 0.97 до 0.92). Набор данных общедоступен по адресу https://github.com/few-sh/terminal-wrench.

Слой непрерывности: почему интеллекту нужна архитектура для того, что он переносит из прошлого
The Continuity Layer: Why Intelligence Needs an Architecture for What It Carries Forward

Apr 19

BySamuel Sameer Tanguturi

Самая важная архитектурная проблема в ИИ заключается не в размере модели, а в отсутствии слоя, который сохранял бы и передавал дальше то понимание, которое модель приобрела. Сессии заканчиваются. Контекстные окна заполняются. API памяти возвращают плоские факты, которые модель вынуждена заново интерпретировать при каждом чтении. Результатом является интеллект, мощный в рамках одной сессии, но страдающий амнезией с течением времени. В данной позиционной статье утверждается, что слой, устраняющий эту проблему — слой непрерывности, — является наиболее важным элементом инфраструктуры, который индустрия еще не построила, и что инженерная работа по его созданию уже началась в открытом доступе. Формальной системой оценки для описываемого свойства является бенчмарк ATANT (arXiv:2604.06710), опубликованный отдельно вместе с результатами оценки на корпусе из 250 историй; сопутствующая статья (arXiv:2604.10981) сравнивает данную систему с существующими бенчмарками для памяти, длинного контекста и агентской памяти. В статье непрерывность определяется как системное свойство с семью обязательными характеристиками, отличное от памяти и извлечения информации; описывается примитив хранения (Память со Схождением Декомпозированных Трасс), чья декомпозиция при записи и реконструкция при чтении порождают это свойство; инженерная архитектура соотносится с теологическим паттерном кеносиса и символическим паттерном Альфы и Омеги, причем утверждается, что это соответствие является структурным, а не метафорическим; предлагается траектория развития из четырех этапов — от внешнего SDK до аппаратного узла и долгосрочной человеческой инфраструктуры; исследуется, почему физические ограничения, сдерживающие сейчас развитие модельного слоя, делают слой непрерывности вновь актуальным; и доказывается, что архитектура управления (приватность, реализованная как физика, а не политика, не подлежащие обсуждению архитектурные обязательства, закрепленные за основателями через особый класс акций) неотделима от самого продукта.

HSG: Гиперболический сценарный граф
HSG: Hyperbolic Scene Graph

Apr 19

ByLiyang Wang, Zeyu Zhang, Hao Tang

Представления в виде сценовых графов обеспечивают структурированное понимание визуальной информации путем моделирования объектов и их взаимосвязей и широко используются для анализа многовидовых и трехмерных сцен. Существующие методы, такие как MSG, обучают эмбеддинги сценовых графов в евклидовом пространстве с использованием контрастивного обучения и ассоциации на основе внимания. Однако евклидова геометрия не позволяет явно захватывать иерархические отношения следования между местами и объектами, что ограничивает структурную согласованность изучаемых представлений. Для решения этой проблемы мы предлагаем Гиперболический Сценовый Граф (HSG), который обучает эмбеддинги сценовых графов в гиперболическом пространстве, где иерархические отношения естественным образом кодируются через геометрическое расстояние. Наши результаты показывают, что HSG улучшает качество иерархической структуры, сохраняя при этом высокую производительность поиска. Наибольший прирост наблюдается в метриках на уровне графа: HSG достигает PP IoU 33.17 и наивысшего Graph IoU 33.51, превосходя лучший вариант AoMSG (25.37) на 8.14, что подчеркивает эффективность гиперболического обучения представлений для моделирования сценовых графов. Код: https://github.com/AIGeeksGroup/HSG.

О надежности плотных ретриверов на основе больших языковых моделей: систематический анализ обобщающей способности и устойчивости
On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Apr 17

ByYongkang Li, Panagiotis Eustratiadis, Yixing Fan, Evangelos Kanoulas

Крупные языковые модели с декодерной архитектурой (LLM) все чаще заменяют архитектуры стиля BERT в качестве основы для плотного поиска, демонстрируя значительный прирост производительности и широкое внедрение. Однако устойчивость этих ретриверов на основе LLM остается малоизученной. В данной статье мы представляем первое систематическое исследование устойчивости передовых открытых ретриверов на основе LLM с двух взаимодополняющих перспектив: обобщаемости и стабильности. Для оценки обобщаемости мы анализируем эффективность поиска на четырех бенчмарках, охватывающих 30 наборов данных, используя линейные модели со смешанными эффектами для оценки маргинальной средней производительности и разделения внутренней способности модели от неоднородности данных. Наш анализ показывает, что хотя модели, дообученные с инструкциями, в целом преуспевают, модели, оптимизированные для сложных рассуждений, часто страдают от «налога на специализацию», демонстрируя ограниченную обобщаемость в более широких контекстах. Для оценки стабильности мы проверяем устойчивость моделей как к непреднамеренным вариациям запросов (например, парафразы, опечатки), так и к злонамеренным атакам (например, отравление корпуса). Мы обнаружили, что ретриверы на основе LLM демонстрируют повышенную устойчивость к опечаткам и отравлению корпуса по сравнению с базовыми encoder-only моделями, но остаются уязвимыми к семантическим возмущениям, таким как синонимизация. Дальнейший анализ показывает, что геометрия эмбеддингов (например, угловая равномерность) предоставляет прогностические сигналы для лексической стабильности и указывает на то, что увеличение размера модели, как правило, повышает устойчивость. Эти результаты информируют о будущем проектировании ретриверов с учетом устойчивости и принципиальном бенчмаркинге. Наш код общедоступен по адресу https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

KWBench: Измерение спонтанного распознавания проблем в интеллектуальном труде
KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

Apr 17

ByAnkit Maloo

Мы представляем первую версию KWBench (Knowledge Work Bench) — эталонный тест для оценки способности больших языковых моделей к самостоятельному распознаванию проблем: может ли ИИ-модель идентифицировать профессиональный сценарий до попытки его решения. Существующие передовые бенчмарки достигли насыщения, а большинство оценок интеллектуального труда сводятся к извлечению данных или выполнению задач по спецификации. KWBench фокусируется на этапе, предшествующему этому: распознавании структуры, управляющей ситуацией, на основе только исходных данных. Бенчмарк содержит 223 задания, предоставленные практиками из сфер поглощений, договорных переговоров, клинической фармации, организационной политики, анализа мошенничества и проектирования стимулов. Каждое задание кодирует формальную игротеоретическую модель (конфликт принципала и агента, сигнализирование, провал механизма проектирования, стратегическое упущение, коалиционная динамика, стратегическая взаимозависимость) и содержит структурированную эталонную разметку, фиксирующую экспертную интерпретацию ситуации и ожидаемые режимы сбоев. Модели получают сырые данные и формулировку задачи без указания типа проблемы. Оценка проводится по трехуровневой рубрике с обязательной конъюнктивной проверкой. Обязательные критерии кодируют предсказанные ошибочные пути. Мы оценили 16 моделей. Лучшая модель справляется с 27.9% задач. Две лучшие модели совпадают в результатах только по 31.7% успешно решенных задач. Среди топ-8 моделей 44 задачи решены ровно одной моделью; маршрутизация между топ-8 моделями покрывает 50.7% бенчмарка — почти вдвое больше, чем лучшая одиночная модель. При условии успешного прохождения качественные оценки сходятся (примерно 83% для всех моделей); безусловные оценки расходятся. Те же модели правильно формулируют соответствующие игротеоретические концепции при прямом запросе, но не применяют их самостоятельно. Мы публикуем KWBench, чтобы изменить подход к оценке передовых моделей в сфере интеллектуального труда, измеряя их способность распознавать правильную проблему исходя только из контекста ситуации, а не только то, насколько хорошо они выполняют задачу после того, как проблема была для них сформулирована.

Символические ограничители для предметно-ориентированных агентов: усиленные гарантии безопасности и защищенности без ущерба для функциональности
Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility

Apr 16

ByYining Hong, Yining She, Eunsuk Kang, Christopher S. Timperley, Christian Kästner

Искусственные интеллектуальные агенты, взаимодействующие со своей средой через инструменты, открывают возможности для создания мощных приложений. Однако в бизнес-средах с высокими ставками непреднамеренные действия могут привести к неприемлемому ущербу, такому как утечка конфиденциальных данных и финансовые потери. Существующие методы снижения рисков, такие как подходы на основе обучения и нейросетевые защитные механизмы, повышают надежность агентов, но не могут обеспечить гарантий. Мы исследуем символические защитные механизмы как практический путь к обеспечению строгих гарантий безопасности и защищенности ИИ-агентов. Наше трехчастное исследование включает систематический обзор 80 современных бенчмарков безопасности и защищенности агентов для выявления оцениваемых ими политик, анализ того, какие требования политик могут быть гарантированы символическими механизмами, и оценку влияния символических механизмов на безопасность, защищенность и успешность агентов на τ²-Bench, CAR-bench и MedAgentBench. Мы выяснили, что 85% бенчмарков не имеют конкретных политик, полагаясь вместо этого на недостаточно определенные высокоуровневые цели или здравый смысл. Среди специфицированных политик 74% требований могут быть обеспечены символическими защитными механизмами, часто с использованием простых и недорогих методов. Эти механизмы повышают безопасность и защищенность без ущерба для полезности агента. В целом, наши результаты позволяют предположить, что символические защитные механизмы являются практичным и эффективным способом гарантировать выполнение некоторых требований безопасности и защищенности, особенно для предметно-ориентированных ИИ-агентов. Все коды и артефакты доступны по адресу https://github.com/hyn0027/agent-symbolic-guardrails.

Защита языковых моделей от несанкционированного дистилляции с помощью перезаписи трассировки
Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Apr 16

ByXinhang Ma, William Yeoh, Ning Zhang, Yevgeniy Vorobeychik

Дистилляция знаний — широко применяемая техника передачи возможностей больших языковых моделей (LLM) более компактным и эффективным студенческим моделям. Однако несанкционированное использование дистилляции знаний несправедливо использует значительные усилия и затраты, вложенные в разработку передовых моделей. Мы исследуем методы модификации трасс рассуждений, сгенерированных учителем, для достижения двух целей, препятствующих несанкционированной дистилляции: (1) анти-дистилляция, то есть снижение полезности ответов на запросы для обучения, и (2) водяные знаки API, которые внедряют верифицируемые подписи в студенческие модели. Мы представляем несколько подходов к динамическому переписыванию выводов рассуждений учителя с сохранением правильности ответа и семантической связности. Два из них используют возможности LLM по переписыванию текста, а другие — градиентные методы. Наши эксперименты показывают, что простой подход к переписыванию на основе инструкций достигает сильного анти-дистилляционного эффекта, сохраняя или даже улучшая производительность учителя. Кроме того, мы демонстрируем, что наш подход к переписыванию также позволяет внедрять водяные знаки, которые можно надежно обнаружить практически без ложных срабатываний. Наш код доступен по адресу https://github.com/xhOwenMa/trace-rewriting.