Ежедневно отобранные исследовательские статьи по ИИ с переводами
Многошаговая генерация долгое время оставалась важной целью, при этом недавние методы одношаговой генерации, такие как MeanFlow, демонстрируют выдающиеся результаты. Существующие исследования MeanFlow в основном сосредоточены на генерации изображений по классам. Однако интуитивно понятным, но неисследованным направлением является расширение условия с фиксированных меток классов до гибких текстовых описаний, что позволяет создавать более разнообразный контент. По сравнению с ограниченными метками классов текстовые условия предъявляют более высокие требования к способности модели к пониманию, что требует эффективной интеграции мощных текстовых энкодеров в структуру MeanFlow. Несмотря на кажущуюся простоту включения текстовых условий, мы обнаружили, что использование традиционных стратегий обучения для интеграции мощных текстовых энкодеров на основе больших языковых моделей приводит к неудовлетворительной производительности. Чтобы выявить первопричину, мы провели детальный анализ и установили, что из-за крайне ограниченного числа шагов уточнения в генерации MeanFlow (например, всего одного шага) текстовые feature-представления должны обладать достаточно высокой различимостью. Это также объясняет, почему дискретные и легко различимые признаки классов хорошо работают в рамках MeanFlow. Руководствуясь этими выводами, мы используем проверенный мощный текстовый энкодер на основе LLM, обладающий необходимыми семантическими свойствами, и адаптируем процесс генерации MeanFlow к данной структуре, впервые получив эффективный синтез по текстовому условию. Кроме того, мы проверяем наш подход на широко используемой диффузионной модели, демонстрируя значительное улучшение производительности генерации. Мы надеемся, что эта работа послужит практическим ориентиром для будущих исследований тексто-обусловленной генерации MeanFlow. Код доступен по адресу https://github.com/AMAP-ML/EMF.
Метод рассуждений «цепочка мыслей» (CoT) стал мощным инструментом для прогнозирования траекторий в автономном вождении на основе VLA, однако его авторегрессионная природа приводит к задержкам, неприемлемым для развертывания в реальном времени. Методы латентного CoT пытаются сократить этот разрыв, сжимая рассуждения в непрерывные скрытые состояния, но стабильно уступают своим явным аналогам. Мы предполагаем, что это связано с тем, что чисто лингвистические латентные представления сжимают символическую абстракцию мира, а не причинно-следственные динамики, которые фактически управляют вождением. Таким образом, мы представляем OneVL — унифицированную структуру VLA и Мировой Модели, которая направляет рассуждения через компактные латентные токены, контролируемые двумя вспомогательными декодерами. Наряду с языковым декодером, восстанавливающим текстовую CoT, мы вводим декодер визуальной мировой модели, который предсказывает токены будущих кадров, заставляя латентное пространство усваивать причинно-следственные динамики дорожной геометрии, движения агентов и изменений окружающей среды. Трехэтапный конвейер обучения постепенно выравнивает эти латентные переменные с целями траектории, языка и визуализации, обеспечивая стабильную совместную оптимизацию. На этапе вывода вспомогательные декодеры отбрасываются, и все латентные токены заполняются за один параллельный проход, что соответствует скорости прогнозирования только ответа. На четырех тестовых наборах OneVL становится первым методом латентного CoT, превзошедшим явный CoT, демонстрируя наивысшую точность при задержке, характерной для прогнозирования только ответа, и предоставляя прямое доказательство того, что более плотное сжатие, направляемое как языковым, так и мировым контролем, порождает более обобщаемые представления, чем подробное пошаговое рассуждение. Страница проекта: https://xiaomi-embodied-intelligence.github.io/OneVL
Крупные языковые модели всё чаще рассматриваются как универсальные агенты, взаимодействующие с внешними инструментальными средами, обладающими состоянием. Модельный контекстный протокол (MCP) и более широкий набор агентских навыков предлагают унифицированный интерфейс для подключения агентов к масштабируемым сервисам реального мира, однако обучение robustных агентов по-прежнему ограничено отсутствием реалистичных сред и принципиальных механизмов непрерывного обучения. В данной статье мы представляем Agent-World — саморазвивающуюся тренировочную арену для развития общего агентного интеллекта через масштабируемые среды. Agent-World состоит из двух основных компонентов: (1) Автономного обнаружения сред и задач, которое самостоятельно исследует тематически выровненные базы данных и экосистемы исполняемых инструментов из тысяч тем реальных сред и синтезирует проверяемые задачи с контролируемой сложностью; и (2) Непрерывного саморазвивающегося обучения агентов, которое сочетает обучение с подкреплением в множественных средах с саморазвивающейся ареной агентов, автоматически выявляющей пробелы в способностях через динамический синтез задач и стимулирующей целенаправленное обучение, что позволяет осуществлять коэволюцию политик агентов и сред. На 23 сложных агентских бенчмарках модели Agent-World-8B и 14B стабильно превосходят мощные проприетарные модели и базовые подходы к масштабированию сред. Дальнейший анализ выявляет тренды масштабирования в зависимости от разнообразия сред и циклов саморазвития, предлагая insights для построения общего агентного интеллекта.
Разработка игр находится на стыке творческого дизайна и сложного программного обеспечения, требуя совместной координации игровых движков, циклов реального времени и тесно связанных состояний между множеством файлов. Хотя большие языковые модели и агенты кода теперь легко решают изолированные программистские задачи, они неизменно терпят неудачу при создании полностью играбельных игр по высокоуровневому дизайну, сталкиваясь с межфайловыми несоответствиями, нарушенными связями сцен и логической несогласованностью. Мы преодолеваем этот разрыв с помощью OpenGame — первой открытой агентской фреймворк-системы, явно предназначенной для сквозного создания веб-игр. В её основе лежит Game Skill — переиспользуемый, развивающийся навык, состоящий из Template Skill, который накапливает библиотеку каркасов проектов на основе опыта, и Debug Skill, ведущего постоянно обновляемый протокол проверенных исправлений. Вместе это позволяет агенту выстраивать стабильные архитектуры и систематически исправлять ошибки интеграции вместо точечного исправления синтаксических ошибок. Основой фреймворка служит GameCoder-27B — кодовая языковая модель, специализированная на мастерском владении игровыми движками благодаря трёхэтапному пайплайну непрерывного предобучения, контролируемого тонкого обучения и обучения с подкреплением на основе исполнения. Поскольку проверка игровой состоятельности принципиально сложнее анализа статического кода, мы также представляем OpenGame-Bench — оценочный пайплайн, оценивающий агентскую генерацию игр по параметрам работоспособности сборки, визуальной удобности и соответствия замыслу через headless-браузер и проверку VLM. На 150 разнообразных игровых промптах OpenGame устанавливает новое состояние искусства. Мы надеемся, что OpenGame выведет код-агентов за рамки дискретных задач программной инженерии к созданию сложных интерактивных приложений реального мира. Наш фреймворк будет полностью открыт.
Видеомодели мира достигли значительных успехов в моделировании динамики окружающей среды в ответ на действия пользователей или агентов. Они реализуются как модели генерации видео, обусловленные действиями, которые принимают исторические кадры и текущие действия в качестве входных данных для предсказания будущих кадров. Однако большинство существующих подходов ограничены сценариями с одним агентом и не способны охватить сложные взаимодействия, присущие реальным многoагентным системам. Мы представляем MultiWorld — унифицированную архитектуру для многoагентного многoвидового моделирования мира, которая обеспечивает точное управление несколькими агентами при сохранении многoвидовой согласованности. Мы вводим Многoагентный модуль условий для достижения точной управляемости множеством агентов и Глобальный кодировщик состояния для обеспечения согласованных наблюдений в различных ракурсах. MultiWorld поддерживает гибкое масштабирование количества агентов и ракурсов, а также синтезирует разные виды параллельно для высокой эффективности. Эксперименты в средах многoпользовательских игр и задачах многoроботного манипулирования демонстрируют, что MultiWorld превосходит базовые методы по точности видео, способности следовать действиям и многoвидовой согласованности. Страница проекта: https://multi-world.github.io/
Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) продемонстрировало выдающуюся эффективность в улучшении способностей к рассуждению у больших языковых моделей. По мере того как модели эволюционируют в сторону изначально мультимодальных архитектур, расширение RLVR на понимание видео становится все более важной, но в значительной степени неисследованной задачей. Это связано с разнообразием типов видео-задач, вычислительными затратами на многократное декодирование и предварительную обработку высокоразмерных визуальных входных данных, а также со сложностью воспроизводимой оценки при наличии множества чувствительных гиперпараметров. Существующие фреймворки с открытым исходным кодом для RL-обучения предоставляют надежную инфраструктуру для текстовых и графических сценариев, но в них отсутствуют системные оптимизации, адаптированные specifically для видео-модальности. В данной работе мы представляем EasyVideoR1 — полный и эффективный фреймворк обучения с подкреплением, специально разработанный для тренировки больших визуально-языковых моделей на задачах понимания видео. EasyVideoR1 вносит следующий вклад: (1) полный конвейер RL-обучения на видео с автономной предобработкой и кешированием тензоров, который устраняет избыточное декодирование видео и обеспечивает увеличение пропускной способности в 1.47 раза; (2) комплексная, ориентированная на задачу система вознаграждений, охватывающая 11 различных типов видео- и изображенческих проблем с унифицированной маршрутизацией и модульной расширяемостью; (3) парадигма обучения на смешанных автономных и онлайн-данных, которая сочетает курированные высококачественные траектории с поиском на основе политики, что способствует обучению более сложным задачам; (4) совместное обучение на изображениях и видео с независимо настраиваемыми бюджетами пикселей, позволяющее двум модальностям взаимно усиливать друг друга; и (5) асинхронная система оценки по множеству бенчмарков, охватывающая 22 основных бенчмарка для понимания видео, с воспроизведенной точностью, близкой к официально заявленным результатам.
Крупные языковые модели обычно дообучаются с использованием контролируемой тонкой настройки (SFT) и обучения с подкреплением (RL), однако эффективное объединение результативного внедрения знаний с устойчивой обобщающей способностью остается сложной задачей. В данной работе мы проводим анализ динамики обучения, показывающий, что SFT можно интерпретировать как частный случай оптимизации градиента политики с чрезвычайно разреженной неявной наградой и нестабильным взвешиванием по обратной вероятности, что в совокупности приводит к зависимости от единственного пути, коллапсу энтропии и взрыву градиента. Мотивированные этим диагнозом, мы предлагаем Групповую тонкую настройку (GFT) — унифицированную框架 дообучения, которая устраняет эти внутренние ограничения с помощью двух механизмов: Group Advantage Learning, который создает разнородные группы ответов и извлекает нормализованные контрастные сигналы для смягчения разреженности награды, и Dynamic Coefficient Rectification, который адаптивно ограничивает веса обратной вероятности для стабилизации оптимизации при сохранении эффективного внедрения знаний. Эксперименты показывают, что GFT стабильно превосходит методы на основе SFT и порождает политики, которые более плавно интегрируются с последующим обучением с подкреплением.
Крупные языковые модели быстро превращаются в интерактивных программных агентов, способных к сквозной веб-разработке, однако существующие бенчмарки оценивают лишь узкие срезы этих возможностей, как правило, генерацию по текстовому условию со статическими метриками корректности, оставляя визуальное соответствие, качество взаимодействия и рассуждения на уровне кодовой базы в значительной степени неизмеренными. Мы представляем WebCompass, мультимодальный бенчмарк, обеспечивающий унифицированную оценку жизненного цикла способностей к веб-инжинирингу. Признавая, что реальная веб-разработка представляет собой итеративный цикл генерации, редактирования и исправления, WebCompass охватывает три модальности входных данных (текст, изображение, видео) и три типа задач (генерация, редактирование, исправление), формируя семь категорий задач, которые отражают профессиональные рабочие процессы. С помощью многоэтапного конвейера с участием человека мы отбираем примеры, покрывающие 15 доменов генерации, 16 типов операций редактирования и 11 типов дефектов для исправления, каждый с аннотацией уровня сложности Легкий/Средний/Сложный. Для оценки мы применяем контролируемый чек-листом протокол LLM-as-a-Judge для редактирования и исправления и предлагаем новую парадигму Agent-as-a-Judge для генерации, при которой агент автономно исполняет сгенерированные веб-сайты в реальном браузере, исследует интерактивное поведение через Model Context Protocol (MCP) и итеративно синтезирует целевые тестовые сценарии, близко приближаясь к приемочному тестированию человеком. Мы оцениваем репрезентативные проприетарные и открытые модели и наблюдаем, что: (1) проприетарные модели остаются существенно более мощными и сбалансированными; (2) редактирование и исправление демонстрируют различные профили сложности, причем исправление лучше сохраняет интерактивность, но остается сложным для выполнения; (3) эстетика является наиболее устойчивым узким местом, особенно для открытых моделей; и (4) выбор фреймворка существенно влияет на результаты, причем Vue стабильно вызывает сложности, тогда как React и Vanilla/HTML показывают более сильные результаты в зависимости от типа задачи.
Создание сред для обучения и оценки когтеподобных агентов остается ручным, трудоемким процессом, который плохо масштабируется. Мы утверждаем, что необходима не просто набор данных, а автоматизированный конвейер, способный генерировать разнообразные, верифицированные среды по требованию. Для этой цели мы представляем ClawEnvKit — автономный конвейер генерации, который реализует данный формализм из описаний на естественном языке. Конвейер состоит из трех модулей: (1) парсера, извлекающего структурированные параметры генерации из входных данных на естественном языке; (2) генератора, создающего спецификацию задачи, интерфейс инструмента и конфигурацию оценки; и (3) валидатора, обеспечивающего выполнимость, разнообразие, структурную корректность и внутреннюю согласованность генерируемых сред. С помощью ClawEnvKit мы создали Auto-ClawEval — первый крупномасштабный бенчмарк для когтеподобных агентов, содержащий 1040 сред в 24 категориях. Экспериментально показано, что Auto-ClawEval соответствует или превосходит среды, созданные человеком, по связности и ясности при стоимости в 13 800 раз ниже. При оценке на 4 семействах моделей и 8 платформах для запуска агентов мы обнаружили, что инженерия обвязки повышает производительность до 15.7 процентных пунктов по сравнению с базовым ReAct, завершение остается основной осью вариативности без насыщения бенчмарка ни одной моделью, а автоматизированная генерация позволяет проводить оценку в ранее недостижимых масштабах. Помимо статического бенчмаркинга, ClawEnvKit обеспечивает динамическую оценку: пользователи описывают желаемую возможность на естественном языке и получают верифицированную среду по требованию, превращая оценку в непрерывный пользовательско-управляемый процесс. Этот же механизм служит генератором учебных сред по требованию, создавая распределения задач, которые адаптируются к текущим слабостям агента, а не ограничиваются существующими пользовательскими логами.
Крупные языковые модели демонстрируют значительный прогресс в области рассуждений благодаря обучению с подкреплением на верифицируемых вознаграждениях (RLVR). Однако по мере роста возможностей моделей построение высококачественных сигналов вознаграждения становится все более сложной задачей, что делает необходимым понимание условий, при которых RLVR может быть успешным в условиях ослабленного контроля. Мы проводим систематическое эмпирическое исследование на различных семействах моделей и областях рассуждений в трех условиях слабого контроля: недостаточное количество данных, зашумленные вознаграждения и самоконтролируемые прокси-вознаграждения. Мы обнаруживаем, что обобщаемость определяется динамикой насыщения обучающего вознаграждения: модели, способные к обобщению, демонстрируют продолжительную фазу предварительного насыщения, в течение которой обучающее вознаграждение и итоговая производительность растут совместно, тогда как модели, быстро достигающие насыщения, запоминают, а не обучаются. Мы определяем достоверность рассуждений — степень, в которой промежуточные шаги логически обосновывают конечный ответ — как свойство, предшествующее RL, которое предсказывает, в какой режим войдет модель, в то время как одно лишь разнообразие выходных данных неинформативно. Руководствуясь этими выводами, мы разделяем вклад continual предварительного обучения и контролируемой тонкой настройки, устанавливая, что SFT на явных траекториях рассуждений необходима для обобщения в условиях слабого контроля, тогда как continual предварительное обучение на данных предметной области усиливает этот эффект. Совместное применение этих методов к модели Llama3.2-3B-Base позволяет добиться обобщения во всех трех условиях, в которых базовая модель ранее не справлялась.
По мере расширения границ возможностей автономных агентов они становятся все более способными выполнять специализированные задачи с помощью подключаемых внешних навыков. Однако современные бенчмарки в основном проверяют, способны ли модели использовать предоставленные навыки, оставляя открытым вопрос о том, могут ли они обнаруживать навыки на основе опыта, исправлять их после сбоев и поддерживать согласованную библиотеку с течением времени. Мы представляем SkillFlow — бенчмарк из 166 задач, охватывающих 20 семейств, в котором построение задач внутри каждого семейства следует Domain-Agnostic Execution Flow (DAEF), определяющему фреймворк рабочего процесса агента, что позволяет этим задачам иметь согласованный рабочий процесс. Агенты оцениваются по протоколу Agentic Lifelong Learning, в рамках которого они начинают без навыков, последовательно решают задачи внутри каждого семейства, экстернализируют полученные уроки через патчи навыков на основе траекторий и рубрик и переносят обновленную библиотеку вперед. Эксперименты выявляют существенный разрыв в возможностях. Для Claude Opus 4.6 эволюция навыков на протяжении жизненного цикла повышает успешность выполнения задач с 62,65% до 71,08% (+8,43 пункта). Однако высокое использование навыков не обязательно подразумевает высокую полезность: Kimi K2.5 получает лишь +0,60 пункта, несмотря на использование навыков на 66,87%, в то время как Qwen-Coder-Next достигает уровня завершения задач лишь в 44,58% и все равно демонстрирует регресс по сравнению с базовой настройкой. SkillFlow вносит вклад в виде структурированного полигона для этого направления исследований и предоставляет глубокий эмпирический анализ обнаружения, исправления, передачи навыков и их режимов отказа в условиях пожизненной оценки.
Объединение отдельно обученных адаптеров LoRA является практичной альтернативой совместному многозадачному обучению, но часто приводит к снижению производительности. Существующие методы обычно рассматривают обновление LoRA ΔW = BA как единый объект и не различают две матрицы LoRA. Мы показываем, что основной источник интерференции при слиянии LoRA исходит от выходной матрицы B. Для разных задач B многократно использует небольшой набор общих направлений, в то время как A остается гораздо более специфичной для задачи. В результате объединенный адаптер чрезмерно акцентирует эти общие направления, и информация, специфичная для задачи, теряется. Мы предлагаем Pico (калибровка интерференции перед слиянием в выходном пространстве) — беcданный метод, который калибрует B перед слиянием, уменьшая масштаб чрезмерно общих направлений, а затем перенастраивая масштаб объединенного обновления. Pico напрямую интегрируется в существующие методы слияния, такие как Task Arithmetic, TIES и TSV-M. На восьми различных тестовых наборах из областей математики, программирования, финансов и медицины Pico улучшает среднюю точность на 3.4–8.3 пункта по сравнению с соответствующим базовым методом и демонстрирует наилучшую общую среднюю производительность. Pico также позволяет объединенным адаптерам превзойти LoRA, обученную на всех данных задач. Эти результаты показывают, что слияние LoRA работает лучше, когда две матрицы LoRA рассматриваются отдельно.
Он-политическое дистилляционное обучение (OPD) становится все более важной парадигмой для посттренировочной доработки языковых моделей. Однако мы выявляем повсеместно проявляющийся закон масштабирования некорректной калибровки: хотя OPD эффективно повышает точность решения задач, оно систематически загоняет модели в состояние сильной переобученности. Мы связываем эту неудачу с информационным несоответствием: учительский контроль формируется в условиях привилегированного контекста, доступного во время обучения, тогда как развернутая модель должна оценивать уверенность, используя только информацию, доступную во время эксплуатации. Мы формализуем эту точку зрения теоретически, показывая, что успех, обусловленный учителем, вообще говоря, не является валидной целью для уверенности во время развертывания и что полезный привилегированный контекст вызывает коллапс энтропии и систематическое смещение в сторону оптимизма. Для решения этой проблемы мы предлагаем учитывающий калибровку фреймворк OPD, CaOPD, который оценивает эмпирическую уверенность по результатам прогонов модели, заменяет самооценочную уверенность на эту обоснованную студентом цель и дистиллирует пересмотренный ответ через тот же конвейер самообучения. Эксперименты на различных моделях и в различных областях показывают, что CaOPD достигает Парето-оптимальной калибровки, сохраняя при этом конкурентоспособные способности и устойчиво обобщая в условиях внераспределенных данных и непрерывного обучения. Наши результаты подчеркивают, что дистилляция способностей не подразумевает калиброванную уверенность, и что уверенность следует рассматривать как важнейшую цель посттренировочной доработки. Код: https://github.com/SalesforceAIResearch/CaOPD
Модели "визуальный язык" демонстрируют впечатляющие возможности, но часто испытывают трудности с композиционным мышлением, проявляя уязвимости в отношении порядка слов и связывания атрибутов. Это ограничение возникает из-за нехватки информативных примеров, необходимых для различения тонких семантических вариаций в процессе контрастивного предварительного обучения. Хотя выбор сложных негативных примеров предлагает многообещающее решение, существующие методы не имеют явных механизмов для определения того, какие лингвистические элементы подвергаются модификации. Вместо разработки генеративных архитектур данное исследование устанавливает лексическую конкретность как фундаментальный детерминант эффективности негативных примеров. Модификация высококонкретных терминов порождает более выраженные структурные и визуальные расхождения, обеспечивая существенно более сильный обучающий сигнал. На основе этого принципа предлагается ConcretePlant для систематического выделения и манипулирования перцептивно обоснованными концептами. Анализ функции потерь InfoNCE также выявляет серьезный дисбаланс градиентов, при котором легко различимые пары непропорционально доминируют в процессе оптимизации и ограничивают пропускную способность, доступную для тонкого обучения. Для устранения этой деградации формулируется функция потерь Cement с использованием подхода, основанного на зазоре. Путем корреляции психолингвистических оценок со сложностью примеров данная цель динамически калибрует штраф, применяемый к отдельным обучающим парам. Всесторонние оценки подтверждают эти теоретические положения. Интегрированная структура, обозначенная как Slipform, достигает наилучшей точности в различных бенчмарках для оценки композиционности, общей кросс-модальной retrieval-задачи, а также при линейном пробировании с одной и несколькими метками.
Агенты, работающие с компьютером, быстро совершенствуются в решении практических задач, таких как навигация в интернете, автоматизация работы с рабочим столом и взаимодействие с программным обеспечением, в некоторых случаях превосходя человеческие возможности. Однако даже при неизменной задаче и модели агент, успешно выполнивший задачу однажды, может потерпеть неудачу при повторном выполнении того же задания. Это поднимает фундаментальный вопрос: если агент способен успешно выполнить задачу один раз, что мешает ему делать это стабильно? В данной работе мы исследуем источники ненадежности компьютерных агентов через три фактора: стохастичность во время выполнения, неоднозначность в постановке задачи и вариабельность поведения агента. Мы анализируем эти факторы в среде OSWorld с помощью многократного выполнения одной и той же задачи вместе с парными статистическими тестами, которые фиксируют изменения на уровне задачи в различных условиях. Наш анализ показывает, что надежность зависит как от того, как специфицированы задачи, так и от того, как варьируется поведение агента между выполнениями. Эти результаты указывают на необходимость оценивать агентов в условиях повторного выполнения, позволять агентам разрешать неоднозначность задачи через взаимодействие и отдавать предпочтение стратегиям, остающимся стабильными при разных запусках.
Решение математических задач остается сложным испытанием для рассуждений больших языковых и мультимодальных моделей, однако существующие бенчмарки ограничены по размеру, языковому охвату и разнообразию задач. Мы представляем MathNet — высококачественный, крупномасштабный, мультимодальный и многоязычный набор данных задач олимпиадного уровня по математике вместе с бенчмарком для оценки математических рассуждений в генеративных моделях и математического поиска в системах на основе эмбеддингов. MathNet охватывает 47 стран, 17 языков и два десятилетия соревнований, включая 30 676 задач, созданных экспертами, с решениями из различных областей. Помимо основного набора данных, мы создали бенчмарк для поиска, состоящий из математически эквивалентных и структурно схожих пар задач, отобранных экспертами. MathNet поддерживает три задачи: (i) решение задач, (ii) математически осознанный поиск и (iii) решение задач, усиленное поиском. Экспериментальные результаты показывают, что даже передовые модели рассуждений (78,4% для Gemini-3.1-Pro и 69,3% для GPT-5) остаются не на высоте, в то время как модели эмбеддингов с трудом находят эквивалентные задачи. Мы также демонстрируем, что производительность генерации, усиленной поиском, сильно зависит от качества поиска; например, DeepSeek-V3.2-Speciale демонстрирует улучшение до 12%, достигая наивысших результатов в бенчмарке. MathNet предоставляет крупнейший высококачественный олимпиадный набор данных вместе с первым бенчмарком для оценки поиска математических задач, и мы публично выпускаем как набор данных, так и бенчмарк по адресу https://mathnet.mit.edu.
Современные сквозные модели речевого диалога обеспечивают естественное взаимодействие. Однако по мере усложнения запросов пользователей модели, полагающиеся исключительно на разговорные способности, часто не справляются. Поэтому ключевое значение приобретает наделение их агентскими функциями: благодаря использованию инструментов такие модели могут расширять границы своих знаний и эффективнее решать практические задачи. Тем не менее, существующие исследования в основном сосредоточены на базовых возможностях восприятия и генерации, тогда как расширения с помощью инструментов изучены сравнительно слабо. Для преодоления этого разрыва мы представляем VoxMind — интегрированную платформу, предназначенную для оснащения сквозных речевых диалоговых моделей комплексными агентскими способностями. Используя наш специально подготовленный 470-часовой набор данных AgentChat, мы внедряем механизм «Подумай, прежде чем говорить», позволяющий модели интериоризировать структурированные рассуждения как критически важную предпосылку для планирования и генерации ответов. Кроме того, для снижения задержек, вызванных интеграцией масштабных инструментов, мы предлагаем архитектуру динамического управления инструментами на основе множественных агентов. Благодаря асинхронному делегированию задач поиска вспомогательному агенту, согласованному с траекторией рассуждений основной модели, эта система эффективно разделяет задержку вывода и размер набора инструментов. Результаты экспериментов подтверждают, что VoxMind обеспечивает значительное улучшение агентской производительности: по сравнению с сильными базовыми моделями показатель успешного выполнения задач возрастает с 34,88% до 74,57%, превосходя Gemini-2.5-Pro в речевых агентских задачах при сохранении общего качества диалога. Исходный код и связанные данные находятся в открытом доступе по адресу https://github.com/MM-Speech/VoxMind.
Агенты на основе больших языковых моделей (LLM), работающие в длительных горизонтах планирования, фундаментально ограничены контекстом. По мере увеличения продолжительности взаимодействий описания инструментов, извлеченные воспоминания и сырая обратная связь от среды накапливаются и вытесняют информацию, необходимую для принятия решений. В то же время полезный опыт, полученный при выполнении задач, часто теряется между эпизодами. Мы утверждаем, что производительность в длительных горизонтах определяется не длиной контекста, а тем, какой объем релевантной для принятия решений информации сохраняется в рамках ограниченного бюджета контекста. Мы представляем GenericAgent (GA) — универсальную саморазвивающуюся систему агентов LLM, построенную вокруг единственного принципа: максимизации информационной плотности контекста. GA реализует это через четыре тесно связанных компонента: минимальный атомарный набор инструментов, обеспечивающий простоту интерфейса; иерархическую память по требованию, которая по умолчанию отображает лишь небольшое высокоуровневое представление; механизм саморазвития, преобразующий проверенные прошлые траектории в переиспользуемые СОП (стандартные операционные процедуры) и исполняемый код; а также слой усечения и сжатия контекста, поддерживающий информационную плотность во время длительных исполнений. В задачах на завершение задач, эффективность использования инструментов, действенность памяти, саморазвитие и веб-серфинг GA стабильно превосходит ведущие системы агентов, используя при этом значительно меньше токенов и взаимодействий, и продолжает развиваться с течением времени. Проект: https://github.com/lsdefine/GenericAgent
Современные мультимодальные большие языковые модели (МБЯМ) демонстрируют впечатляющие способности в понимании коротких видеороликов, однако преобразование полнометражных художественных фильмов в детализированные, временно привязанные сценарии остается серьезной проблемой. В данной работе представлена новая задача video-to-script (V2S), направленная на генерацию иерархических, пошаговых сценариев, включающих действия персонажей, диалоги, эмоции и звуковые сигналы. Для решения этой задачи мы создали первую в своем роде аннотированную экспертами эталонную базу и предложили учитывающую временную структуру иерархическую систему оценки. Кроме того, мы представляем OmniScript — 8-миллиардную омнимодальную (аудиовизуальную) языковую модель, специализированную для понимания длинных повествовательных видео. Обучение OmniScript проводится по прогрессивному конвейеру, использующему контролируемую тонкую настройку по методу "рассуждений по цепочке" для анализа сюжета и персонажей с последующим обучением с подкреплением на основе временно сегментированных вознаграждений. Многочисленные эксперименты показывают, что, несмотря на эффективное использование параметров, OmniScript значительно превосходит более крупные открытые модели и демонстрирует результаты, сопоставимые с передними проприетарными моделями, включая Gemini 3-Pro, как по точности временной локализации, так и по семантической точности в различных полях.
Предполагается, что агенты на основе больших языковых моделей (LLM) интегрируют наблюдения за средой в свои рассуждения: обнаружение высоко релевантной, но неожиданной информации должно естественным образом приводить к модели, использующей собственные открытия. Мы показываем, что это предположение ложно для современных агентов на основе LLM, которые с трудом отражают или реагируют на неожиданную информацию. На трех тестовых наборах (Terminal-Bench, SWE-Bench, AppWorld) мы внедряем полные решения задач в среды агентов, чтобы намеренно предоставить модели решение задачи. Хотя агенты обнаруживают эти решения в Terminal-Bench в 79–81% запусков, они взаимодействуют с ними или используют их лишь в 37–50% случаев. Этот разрыв наиболее ярко выражен в AppWorld: агенты видят документацию, в которой утверждается, что команда «возвращает полное решение этой задачи», более чем в 90% попыток, но используют это менее чем в 7% испытаний. Мы демонстрируем, что агентам не хватает того, что мы называем **средовой любознательностью** — способности распознавать и исследовать неожиданные, но релевантные наблюдения в ответ на стимулы среды. Мы определяем три основных фактора, влияющих на средовую любознательность: доступные инструменты в каркасе агента, вычислительные ресурсы во время тестирования и распределение обучающих данных. Наши результаты показывают, что конфигурации, максимизирующие любознательность, также достигают наилучшей производительности на немодифицированных тестовых наборах. Тем не менее, даже совместно оптимизированные агенты в большинстве испытаний игнорируют обнаруженные решения: текущие агенты используют среду для получения ожидаемой информации, но не для пересмотра своей стратегии или максимального использования полезных стимулов.
Визуальное декодирование сигналов мозга — ключевая задача на стыке компьютерного зрения и нейронауки, требующая методов, связывающих нейронные репрезентации с вычислительными моделями зрения. Общеотраслевой целью является создание обобщаемых моделей, применимых к разным субъектам. Главным препятствием на этом пути служит значительная вариабельность нейронных репрезентаций между индивидами, что до сих пор требовало обучения специализированных моделей или раздельного дообучения для каждого испытуемого. Для решения этой проблемы мы предлагаем мета-оптимизированный подход к семантическому визуальному декодированию фМРТ, который обобщается на новых субъектов без какого-либо дообучения. Просто conditioning на небольшом наборе примеров "изображение-активация мозга" нового индивида позволяет нашей модели быстро выводить его уникальные паттерны нейронного кодирования для обеспечения надежного и эффективного визуального декодирования. Наш подход явно оптимизирован для in-context обучения модели кодирования нового субъекта и выполняет декодирование через иерархический вывод, инвертируя энкодер. Сначала для нескольких областей мозга мы оцениваем параметры энкодера визуального отклика для каждого вокселя, конструируя контекст по множеству стимулов и ответов. Затем мы строим контекст, состоящий из параметров энкодера и значений отклика по множеству вокселей, для выполнения агрегированной функциональной инверсии. Мы демонстрируем сильное обобщение между субъектами и сканерами для различных визуальных архитектур без переобучения или дообучения. Более того, наш подход не требует ни анатомического выравнивания, ни перекрытия стимулов. Данная работа представляет собой важный шаг к созданию обобщаемой фундаментальной модели для неинвазивного декодирования мозга.
Современные агенты в основном «самоэволюционируют», следуя вознаграждениям и правилам, заданным человеком. Однако этот процесс остается фундаментально зависимым от внешнего контроля: без человеческого руководства эволюция прекращается. В данной работе мы обучаем агентов обладать внутренней мета-эволюционной способностью — спонтанно изучать незнакомые среды до выполнения задачи. Для формирования этой способности мы разработали механизм вознаграждения, основанный на результате, который оценивает, насколько сгенерированные агентом знания о мире повышают его успешность в последующих задачах. Этот сигнал вознаграждения используется исключительно на этапе обучения, чтобы научить модель эффективно исследовать и обобщать информацию. На этапе вывода агент не требует внешних вознаграждений или инструкций. Он спонтанно выполняет аутохтонную самоэволюцию, адаптируясь к неизвестным средам с помощью внутренних параметров. Применение этого подхода к моделям Qwen3-30B и Seed-OSS-36B привело к 20% росту производительности в задачах WebVoyager и WebWalker. Наиболее впечатляюще то, что сгенерированные знания о мире позволили компактной модели Qwen3 на 14 млрд параметров превзойти модель Gemini-2.5-Flash без дополнительной помощи, устанавливая новую парадигму по-настоящему эволюционирующих агентов.
Игры представляют убедительную парадигму для развития общих способностей к рассуждению в языковых моделях, поскольку они по своей природе требуют стратегического планирования, вероятностного вывода и адаптивного принятия решений. Однако существующие подходы к самообучению полагаются исключительно на конечные результаты игры, не предоставляя механизма для различения переносимых паттернов рассуждений от специфичных для игры эвристик. Мы представляем STRATAGEM, который решает два фундаментальных барьера для переноса рассуждений: *специфичность домена*, когда изученные паттерны остаются привязанными к семантике игры, и *контекстуальный стазис*, когда статичные игровые контексты не способствуют развитию прогрессивного рассуждения. STRATAGEM выборочно усиливает траектории, демонстрирующие абстрактные, не зависящие от домена рассуждения, с помощью Коэффициента Переносимости Рассуждений, одновременно стимулируя развитие адаптивного мышления посредством Награды за Эволюцию Рассуждений. Эксперименты на наборах данных по математическим рассуждениям, общим рассуждениям и генерации кода демонстрируют существенные улучшения, с особенно значительным прогрессом в решении задач математики уровня соревнований, где критически важно многошаговое рассуждение. Исследования методом абляции и оценка человеком подтверждают, что оба компонента вносят вклад в формирование переносимых навыков рассуждения.
Мультимодальные большие языковые модели способны точно воспринимать числовую информацию из различных модальностей, однако не справляются с точным умножением многозначных чисел, когда одна и та же арифметическая задача представлена в виде цифр, числительных, изображений или аудио. Поскольку существующие бенчмарки часто не содержат систематически парных примеров across модальностями, остается сложно сравнить подлинные арифметические ограничения внутри семейств моделей и между ними. Поэтому мы представляем контролируемый мультимодальный бенчмарк для умножения, который факторно варьирует длину чисел, разреженность цифр, представление (например, цифры против числительных) и модальность (текст, визуализированные изображения, аудио), с парными примерами из воспроизводимого генератора. Мы также определяем арифметическую нагрузку, C, как произведение общего количества цифр и количества ненулевых цифр — компактный, механистически обоснованный прокси для количества операций. По всем оценкам, точность резко падает с ростом C, часто приближаясь к нулю при C > 100. Действительно, C остается прогностическим для производительности across модальностями и моделями, с R-квадрат часто > 0.5, приближаясь к значению для более сложных мер арифметической нагрузки, которые подсчитывают количество промежуточных арифметических шагов. Отдельная декомпозиция "восприятие versus вычисление" показывает, что мультимодальная деградация является в первую очередь вычислительной, а не перцептивной: на проверках с совпадающим восприятием модели демонстрируют почти идеальную точность (> 99%) across модальностями, даже когда точность умножения падает. Помимо измерения случаев, когда модели ошибаются, мы исследуем, каким процедурам они склонны следовать. Мы вводим зонд потерь с принудительным завершением, который оценивает эвристически-специфичные префиксы рассуждений — включая столбиковое умножение, дистрибутивную декомпозицию и округление/компенсацию. Здесь декомпозиция предпочтительна как в текстовой, так и в визуальной модальностях; эвристически-специфичные LoRA-адаптеры производят почти ортогональные обновления, но ухудшают точность, что указывает на то, что базовая модель поддерживает хорошо настроенный внутренний маршрутизатор.
Мы представляем SemanticQA — набор инструментов для оценки языковых моделей (ЯМ) в задачах обработки семантических фраз. Данный бенчмарк объединяет существующие ресурсы по многокомпонентным выражениям (МВЕ) и реорганизует их в единую тестовую среду. Он охватывает как общие лексические явления, такие как лексические коллокации, так и три детализированные категории: идиоматические выражения, именные композиты и глагольные конструкции. С помощью SemanticQA мы оцениваем ЯМ различных архитектур и масштабов в задачах извлечения, классификации и интерпретации, а также в композициях последовательных задач. Мы выявляем значительные вариации производительности, особенно в заданиях, требующих семантического рассуждения, что подчеркивает различия в эффективности reasoning и семантическом понимании ЯМ. Эти наблюдения дают основу для развития языковых моделей с более глубоким пониманием нетривиальных семантических фраз. Инструментарий оценки и данные SemanticQA доступны по адресу https://github.com/jacklanda/SemanticQA.
В отличие от автодополнения кода, отладка требует локализации ошибок и применения целевых исправлений. Мы наблюдаем, что передовые большие языковые модели (LLM) часто воспроизводят корректные, но избыточно отредактированные решения в процессе отладки. Чтобы оценить, насколько LLM отстоят от точной отладки, мы представляем фреймворк Precise Debugging Benchmark (PDB), который автоматически преобразует любой набор данных по программированию в бенчмарк для отладки с оценкой, учитывающей точность. PDB генерирует программы с ошибками путем синтеза верифицированных атомарных багов и комбинирования их в программы с множественными ошибками. Мы определяем две новые метрики: точность на уровне правок и полноту на уровне ошибок, которые измеряют, сколько необходимых исправлений было сделано и сколько ошибок было устранено. Мы публикуем два оценочных бенчмарка: PDB-Single-Hard для ошибок в одной строке и PDB-Multi для многострочных ошибок. Эксперименты показывают, что передовые модели, такие как GPT-5.1-Codex и DeepSeek-V3.2-Thinking, достигают уровня прохождения модульных тестов выше 76%, но демонстрируют точность ниже 45%, даже при явной инструкции выполнять минимальную отладку. Наконец, мы показываем, что итеративные и агентные стратегии отладки не приводят к существенному улучшению точности или полноты, что подчеркивает необходимость переосмысления пост-тренировочных конвейеров для моделей, работающих с кодом.
Родные омнимодальные большие языковые модели (OLLM) перешли от конвейерных архитектур к унифицированным пространствам представлений. Однако эта нативная интеграция порождает критическое, но малоизученное явление: модальное предпочтение. Чтобы заполнить этот пробел, мы сначала систематически количественно оцениваем модальное предпочтение OLLM с помощью нового конфликтного бенчмарка и метрики частоты выбора модальности. Наша оценка десяти репрезентативных OLLM выявляет заметный сдвиг парадигмы: в отличие от «доминирования текста» у традиционных VLM, большинство OLLM демонстрируют выраженное визуальное предпочтение. Чтобы глубже понять лежащий в основе механизм, мы проводим послойный анализ и показываем, что такое модальное предпочтение не является статичным, а прогрессивно возникает в средних и поздних слоях. Опираясь на эти инсайты, мы используем эти внутренние сигналы для диагностики кросс-модальных галлюцинаций, достигая конкурентоспособной производительности на трех downstream многомодальных бенчмарках без данных, специфичных для задачи. Наша работа предоставляет как механистическое понимание, так и практический инструмент для создания более надежных OLLM. Наш код и связанные ресурсы общедоступны по адресу: https://github.com/icip-cas/OmniPreference
Крупные языковые модели (LLMs) активно исследуются для решения задач, требующих сложных рассуждений, однако ресурсы для проверки их способности делать научные выводы на основе структурированных биомедицинских данных остаются ограниченными. Мы представляем MedConclusion — масштабный набор данных, содержащий 5,7 млн структурированных рефератов из PubMed для генерации биомедицинских заключений. Каждый пример связывает разделы реферата, не содержащие заключения, с оригинальным заключением, написанным автором, что обеспечивает естественный надзор для логического перехода от доказательств к выводам. MedConclusion также включает метаданные на уровне журналов, такие как биомедицинская категория и SJR (SCImago Journal Rank), что позволяет проводить анализ подгрупп в различных биомедицинских областях. В рамках начального исследования мы оцениваем различные LLM в условиях prompting для заключения и суммаризации, а также оцениваем выходные данные с помощью как метрик, основанных на эталоне, так и подхода LLM-as-a-judge. Мы обнаружили, что написание заключения поведенчески отличается от написания резюме, что сильные модели остаются тесно сгруппированными согласно текущим автоматическим метрикам, и что личность "судьи" (модели-оценщика) может существенно смещать абсолютные оценки. MedConclusion предоставляет многократно используемый ресурс данных для изучения логического перехода от научных доказательств к выводам. Наш код и данные доступны по адресу: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.
Крупные языковые модели (LLM) продемонстрировали выдающуюся производительность в различных областях, но всё чаще сталкиваются с ограничениями из-за высокой задержки вывода. Ранний выход (Early Exit) стал перспективным решением для ускорения вывода за счёт динамического пропуска избыточных слоёв. Однако в архитектурах, использующих только декодер, эффективность раннего выхода сильно ограничивается проблемой отсутствия KV-кэша (KV Cache Absence), когда пропущенные слои не предоставляют необходимые исторические состояния для последующих токенов. Существующие решения, такие как перевычисление или маскирование, либо вносят значительные задержки, либо приводят к серьёзной потере точности, не позволяя преодолеть разрыв между теоретическим сокращением слоёв и практическим ускорением в реальном времени. В данной статье мы предлагаем River-LLM — беспарадигменную инфраструктуру, обеспечивающую бесшовный ранний выход на уровне токенов. River-LLM вводит лёгкий KV-Shared Exit River, который позволяет естественным образом генерировать и сохранять отсутствующий KV-кэш базовой модели в процессе выхода, устраняя необходимость в затратных операциях восстановления. Кроме того, мы используем схожесть переходов состояний внутри блоков декодера для прогнозирования кумулятивных KV-ошибок и принятия точных решений о выходе. Многочисленные эксперименты на задачах математических рассуждений и генерации кода показывают, что River-LLM обеспечивает практическое ускорение в 1.71–2.16 раза при сохранении высокого качества генерации.
Генетическая инженерия достигла выдающейся точности на уровне последовательностей, однако предсказание транскриптомного состояния, которое клетка займет после воздействия, остается нерешенной проблемой. Скрининги CRISPR на уровне единичных клеток измеряют, насколько далеко клетки отходят от своего невозмущенного состояния, но эта величина эффекта игнорирует фундаментальный вопрос: движутся ли клетки согласованно? Два воздействия с одинаковой величиной эффекта могут приводить к качественно разным результатам, если одно направляет клетки когерентно по общей траектории, а другое рассеивает их в пространстве экспрессии. Мы вводим метрику геометрической стабильности Shesha, которая количественно определяет направленную когерентность ответов единичных клеток на воздействие как среднее косинусное сходство между векторами смещения отдельных клеток и средним направлением воздействия. На пяти наборах данных CRISPR (более 2200 воздействий, включая CRISPRa, CRISPRi и пуловые скрининги) стабильность сильно коррелирует с величиной эффекта (ρ Спирмена = 0.75–0.97), с калиброванной кросс-наборной корреляцией 0.97. Ключевым моментом является то, что случаи рассогласования, когда две метрики расходятся, выявляют регуляторную архитектуру: плейотропные мастер-регуляторы, такие как CEBPA и GATA1, платят «геометрическую цену», вызывая большие, но некогерентные смещения, тогда как факторы, специфичные для линии, такие как KLF1, порождают строго координированные ответы. После поправки на величину эффекта геометрическая нестабильность независимо ассоциирована с повышенной активацией шаперонов (HSPA5/BiP; ρ_парциальный = -0.34 и -0.21 по наборам данных), и квадрант высокой стабильности/высокого стресса систематически обеднен. Взаимосвязь величины эффекта и стабильности сохраняется в эмбеддингах базовой модели scGPT, подтверждая, что это свойство биологического пространства состояний, а не линейной проекции. Стабильность ответа на воздействие предоставляет дополнительную ось для приоритизации хитов в скринингах, контроля качества фенотипа в клеточном производстве и оценки предсказаний in silico воздействий.
Сближение больших языковых моделей и агентов знаменует новую эру научных открытий: Агентно-ориентированную Науку (Agentic Science). Хотя научный метод по своей природе итеративен, существующие фреймворки для агентов остаются преимущественно статичными, узкоспециализированными и неспособными учиться на основе проб и ошибок. Чтобы устранить этот разрыв, мы представляем EvoMaster — базовый фреймворк эволюционирующих агентов, созданный специально для Масштабируемой Агентно-ориентированной Науки. Руководствуясь ключевым принципом непрерывного саморазвития, EvoMaster позволяет агентам итеративно уточнять гипотезы, проводить самокритику и постепенно накапливать знания в ходе экспериментальных циклов, достоверно отражая процесс человеческого научного поиска. Что особенно важно, будучи предметно-независимой базовой платформой, EvoMaster исключительно легко масштабируется — разработчики могут создавать и развертывать высокопроизводительных, саморазвивающихся научных агентов для произвольных дисциплин примерно в 100 строках кода. На основе EvoMaster мы создали экосистему SciMaster для таких областей, как машинное обучение, физика и наука общего профиля. Оценки на четырех авторитетных тестовых наборах (Humanity's Last Exam, MLE-Bench Lite, BrowseComp и FrontierScience) демонстрируют, что EvoMaster достигает наивысших результатов в 41.1%, 75.8%, 73.3% и 53.3% соответственно. Он всесторонне превосходит базовую универсальную модель OpenClaw с относительным улучшением показателей от +159% до +316%, что убедительно подтверждает его эффективность и универсальность в качестве передового базового фреймворка для следующего поколения автономных научных открытий. EvoMaster доступен по адресу https://github.com/sjtu-sai-agents/EvoMaster.
Последние достижения в области семантического соответствия основаны на архитектурах с двойным кодировщиком, сочетающих DINOv2 с диффузионными основами. Несмотря на точность, эти миллиардные модели плохо обобщаются за пределы обучающих ключевых точек, выявляя разрыв между производительностью на бенчмарках и практической применимостью, где запрашиваемые точки редко совпадают с теми, что встречались при обучении. На основе DINOv2 мы представляем MARCO — унифицированную модель для обобщаемого соответствия, основанную на новой системе обучения, которая улучшает как точную локализацию, так и семантическое обобщение. Благодаря сочетанию coarse-to-fine подхода, повышающего пространственную точность, с框架 само-дистилляции, расширяющей разреженную разметку за пределы аннотированных областей, наш метод преобразует несколько ключевых точек в плотные семантически согласованные соответствия. MARCO устанавливает новый state-of-the-art на SPair-71k, AP-10K и PF-PASCAL с улучшениями, которые усиливаются на порогах точной локализации (+8.9 PCK@0.01), демонстрируют наилучшее обобщение на неизвестные ключевые точки (+5.1, SPair-U) и категории (+4.7, MP-100), оставаясь при этом в 3 раза меньше и в 10 раз быстрее диффузионных подходов. Код доступен по адресу https://github.com/visinf/MARCO.
Пользователи часто опускают важные детали в запросах к агентам на основе больших языковых моделей (LLM), что приводит к неполным входным данным для использования инструментов. Это создает фундаментальную проблему для агентов, усиленных инструментами, поскольку выполнение API-запросов обычно требует полного набора аргументов, что подчеркивает необходимость персонализированного вызова инструментов. Для изучения данной проблемы мы представляем MPT — эталонный набор, содержащий 265 диалогов в нескольких сессиях, которые охватывают три задачи: восстановление предпочтений, выявление предпочтений и перенос предпочтений. Мы также предлагаем PRefine, метод с расширенной памятью на этапе тестирования, который представляет предпочтения пользователя как развивающиеся гипотезы. С помощью цикла "генерация–проверка–уточнение" метод извлекает повторно используемые ограничения из истории и повышает точность вызова инструментов, используя при этом всего 1.24% токенов от объема, требуемого при полном промптинге истории. Эти результаты показывают, что надежная персонализация в агентских системах зависит от памяти, которая фиксирует причины выбора пользователя, а не только сами выборы.
Диалог эмоциональной поддержки (ESC) направлен на помощь людям, испытывающим дистресс, путем генерации эмпатичного и поддерживающего общения. В то время как предыдущие работы обычно предполагают, что каждая реплика поддержки соответствует одной стратегии, в реальной поддерживающей коммуникации зачастую используется несколько стратегий в рамках одного высказывания. В данной статье мы переосмысливаем задачу ESC, формулируя ее как генерацию высказываний с множественными стратегиями, где каждое высказывание может содержать одну или несколько пар "стратегия-ответ". Мы предлагаем два метода генерации: All-in-One, который предсказывает все пары "стратегия-ответ" за один шаг декодирования, и One-by-One, который итеративно генерирует пары до завершения. Оба метода дополнительно улучшены с помощью когнитивного рассуждения, направляемого обучением с подкреплением, для улучшения выбора стратегий и составления ответов. Мы оцениваем наши модели на наборе данных ESConv в условиях как уровня высказывания, так и уровня диалога. Экспериментальные результаты показывают, что наши методы эффективно моделируют высказывания с множественными стратегиями и приводят к повышению качества поддержки и успешности диалога. Насколько нам известно, данная работа представляет первое систематическое эмпирическое доказательство того, что разрешение использования нескольких стратегий поддержки в рамках одного высказывания является как осуществимым, так и полезным для диалогов эмоциональной поддержки. Весь код и данные будут общедоступны по адресу https://github.com/aliyun/qwen-dianjin.
Надежное развертывание языковых моделей требует двух, казалось бы, различных, но имеющих общую геометрическую основу способностей: прогнозирования того, будет ли модель поддаваться целевому поведенческому контролю, и обнаружения деградации ее внутренней структуры. Мы показываем, что геометрическая стабильность — согласованность структуры попарных расстояний представлений — решает обе задачи. Контролируемые варианты метода Shesha, измеряющие геометрическую стабильность, выровненную по задаче, предсказывают линейную управляемость с почти идеальной точностью (ρ= 0.89–0.97) для 35–69 моделей эмбеддингов и трех задач NLP, фиксируя уникальную дисперсию поверх разделимости классов (частный ρ= 0.62–0.76). Обнаруживается ключевое различие: неконтролируемая стабильность полностью непригодна для прогнозирования управляемости в реальных задачах (ρ≈ 0.10), что показывает важность выравнивания по задаче. Однако неконтролируемая стабильность превосходно справляется с обнаружением дрейфа, фиксируя почти вдвое большее геометрическое изменение по сравнению с CKA в процессе посттренировочного выравнивания (до 5.23 раз в Llama), при этом обеспечивая более раннее предупреждение в 73% моделей и поддерживая в 6 раз более низкий уровень ложных срабатываний, чем метод Прокруста. Вместе контролируемая и неконтролируемая стабильность формируют взаимодополняющие диагностические инструменты для жизненного цикла развертывания LLM: первый — для оценки управляемости до развертывания, второй — для мониторинга после него.
Визуально-языковые модели (VLM) все чаще применяются в клинической диагностике, однако их устойчивость к атакам противника остается малоизученной, что создает серьезные риски. Существующие медицинские атаки ориентированы на второстепенные цели, такие как кража моделей или состязательная донастройка, тогда как переносимые атаки с натуральных изображений создают видимые искажения, которые клиницисты легко обнаруживают. Для решения этой проблемы мы предлагаем MedFocusLeak — высокопереносимую многомодальную атаку в черном ящике, которая вызывает ошибочные, но клинически правдоподобные диагнозы, сохраняя возмущения незаметными. Метод внедряет скоординированные возмущения в недиагностические фоновые области и использует механизм отвлечения внимания для смещения фокуса модели от патологических зон. Масштабные оценки по шести модальностям медицинской визуализации показывают, что MedFocusLeak демонстрирует передовую производительность, генерируя вводящие в заблуждение, но реалистичные диагностические выводы для различных VLM. Мы также представляем унифицированную систему оценки с новыми метриками, которые совместно измеряют успешность атаки и достоверность изображений, выявляя критическую уязвимость в способностях к рассуждению у современных клинических VLM.
Мультимодальные большие языковые модели (MБЯМ) демонстрируют впечатляющие возможности, однако зачастую они не могут эффективно захватывать мелкозернистую текстовую информацию на изображениях, которая критически важна для точного перевода изображений. Это часто приводит к модальному разрыву между визуальными текстовыми входами и текстовыми входами/выходами для перевода изображений. Существующие методы, в основном основанные на инструктивной тонкой настройке, несут риск избыточности параметров предобученных знаний, что ограничивает обобщающую способность. Для решения этой проблемы мы представляем модульно-нейронно-осознанную тонкую настройку (MNAFT) — новый подход, который использует преимущества специализированных ролей отдельных нейронов внутри MБЯМ для улучшения перевода изображений. MNAFT идентифицирует языково-независимые и языково-специфичные нейроны как в визуальных, так и в языковых модулях с помощью инструктивно-управляемого анализа активации, оценивая их важность в различных задачах перевода. Затем мы выполняем выборочную тонкую настройку, обновляя только параметры языково-специфичных и языково-независимых нейронов в выбранных слоях, релевантных целевой задаче, при этом сохраняя знания, закодированные в других нейронах и слоях. Наши обширные эксперименты на нескольких наборах данных показывают, что MNAFT значительно превосходит современные методы перевода изображений, включая каскадные модели, стандартную полную тонкую настройку и параметрически эффективные методы настройки. Кроме того, мы предоставляем всесторонний анализ, включая визуализацию активаций нейронов и кластерных паттернов, чтобы пролить свет на роли различных групп нейронов в посредничестве межмодального понимания и обеспечении точного языково-специфичного перевода.
Понимание и прогнозирование активности, связанной с уязвимостями, является одной из основных проблем в области киберразведки. Данное исследование изучает возможность прогнозирования во времени таких событий, как публикация доказательств концепции, шаблонов обнаружения или онлайн-обсуждений, связанных с уязвимостями. Основываясь на нашей предыдущей работе над VLAI — трансформерной моделью, предсказывающей серьезность уязвимости по текстовым описаниям, — мы исследуем, могут ли оценки серьезности улучшить прогнозирование временных рядов в качестве экзогенных переменных. Мы оцениваем несколько подходов к краткосрочному прогнозированию количества событий на одну уязвимость. Во-первых, мы тестируем модели SARIMAX с преобразованием log(x+1) и без него, а также с использованием показателей серьезности, полученных от VLAI. Хотя эти корректировки дают ограниченное улучшение, SARIMAX в целом плохо подходит для разреженных, коротких и всплесковых данных по уязвимостям. На практике прогнозы часто дают излишне широкие доверительные интервалы, а иногда и нереалистичные отрицательные значения. Для лучшего учета дискретного и событийно-ориентированного характера наблюдений мы затем исследуем методы, основанные на моделировании счетов, такие как регрессия Пуассона. Первые результаты показывают, что эти модели дают более стабильные и интерпретируемые прогнозы, особенно когда данные агрегируются еженедельно. Мы также рассматриваем более простые операционные альтернативы, включая функции экспоненциального затухания для коротких горизонтов прогнозирования, чтобы оценивать будущую активность без необходимости в длинных исторических рядах. В целом, данное исследование подчеркивает как потенциал, так и ограничения прогнозирования редких и всплесковых киберсобытий и предлагает практические рекомендации по интеграции прогнозной аналитики в рабочие процессы анализа уязвимостей.
Полнодуплексные речевые языковые модели (FD-SLMs) обеспечивают взаимодействие в реальном времени с перекрывающейся речью, предлагая более динамичный пользовательский опыт по сравнению с традиционными полудуплексными моделями. Однако существующие бенчмарки в основном сосредоточены на оценке одиночных раундов взаимодействия, игнорируя сложности многораундовой коммуникации. Оценка FD-SLMs в многораундовых сценариях сопряжена со значительными трудностями, включая размытые границы реплик в коммуникации и несогласованность контекста во время вывода модели. Кроме того, существующие бенчмарки часто фокусируются исключительно на оценке диалоговых характеристик, упуская другие важные аспекты. Для устранения этих пробелов мы представляем MTR-DuplexBench — новый бенчмарк, разработанный для комплексной многораундовой оценки FD-SLMs. MTR-DuplexBench не только сегментирует непрерывные полнодуплексные диалоги на отдельные реплики для пошаговой оценки, но и включает различные аспекты анализа, такие как диалоговые характеристики, качество диалога, следование инструкциям и безопасность. Результаты экспериментов показывают, что современные FD-SLMs испытывают трудности с поддержанием стабильной производительности в течение множества раундов и по различным оценочным измерениям, что подчеркивает необходимость и эффективность нашего бенчмарка. Код и данные доступны по адресу: https://github.com/ZhangHe0918/MTR-DuplexBench
Мы представляем Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation) — компилятор из четырех фаз для развертывания трансформеров на гетерогенных аппаратных ускорителях, протестированный на NPU Intel AI Boost. Существующие фреймворки, такие как OpenVINO и ONNX Runtime, часто используют непрозрачные конвейеры компиляции, ограниченную видимость на уровне проходов и слабое управление буферами, что может приводить к высоким затратам на компиляцию и накладным расходам времени выполнения. Forge-UGC решает эти проблемы благодаря аппаратно-независимому дизайну, который разделяет захват графа, оптимизацию, понижение промежуточного представления и планирование для бэкенда. Фаза 1 захватывает графы с помощью torch.export на уровне операторов ATen, поддерживая современные компоненты трансформеров, такие как ротационные позиционные эмбеддинги, групповое квари-внимание и SwiGLU, без ручной декомпозиции. Фаза 2 применяет шесть проходов оптимизации: удаление мертвого кода, устранение общих подвыражений, свертку констант, слияние внимания, слияние операторов и оптимизацию расположения данных, сокращая количество узлов графа на 14,2–21,9%. Фаза 3 понижает оптимизированный граф в типизированное промежуточное представление с явными назначениями виртуальных регистров. Фаза 4 выполняет анализ активности, линейное сканирующее распределение буферов (сокращая пиковое количество буферов на 30–48%) и планирование с учетом устройства (сокращая переходы NPU-CPU на 42–65%). На шести семействах моделей от 125 млн до 8 млрд параметров, оцененных на WikiText-103 и GLUE, Forge-UGC демонстрирует ускорение компиляции в 6,9–9,2 раза по сравнению с OpenVINO и ONNX Runtime, снижение задержки вывода на 18,2–35,7% и снижение энергии на вывод на 30,2–40,9%. Точность сохраняется: максимальные абсолютные различия логитов ниже 2,1e-5, а расхождение Кульбака-Лейблера ниже 8,4e-9. Мы также вводим коэффициент выигрыша от слияния (Fusion Gain Ratio), индекс эффективности компиляции (Compilation Efficiency Index) и профилирование выполнения для каждого прохода для систематической оценки конвейеров компиляции NPU.
Взаимодействие генотип-среда (G×E) влияет на продуктивность генотипов в различных условиях окружающей среды, снижая предсказуемость фенотипов в целевых ареалах. Глубокий анализ взаимодействий G×E позволяет определить, как генетические преимущества или дефекты экспрессируются или подавляются в специфических условиях среды, что способствует генетическому отбору и совершенствованию селекционных практик. В данной статье представлены две ключевые модели для исследования взаимодействий G×E. В частности, включены: анализ значимости на основе модели со смешанными эффектами для определения существенного влияния генов или взаимодействий G×E на фенотипические признаки; анализ стабильности, который дополнительно исследует интерактивные взаимосвязи между генами и средой, а также относительное превосходство или нестабильность генотипов в различных условиях. Кроме того, представлен RGxEStat — легковесный интерактивный инструмент, разработанный авторами и интегрирующий построение, решение и визуализацию упомянутых моделей. Созданный для избавления селекционеров и агрономов от необходимости изучения сложного программирования на SAS или R, RGxEStat предоставляет удобный интерфейс для оптимизированного анализа селекционных данных, значительно ускоряя исследовательские циклы. Коды и наборы данных доступны по адресу https://github.com/mason-ching/RGxEStat.
Мы представляем JuRe (Just Repair) — минималистичную сеть для удаления шума в задачах обнаружения аномалий во временных рядах, которая демонстрирует ключевой вывод: архитектурная сложность избыточна, когда целевая функция обучения корректно реализует принцип проекции на многообразие. JuRe состоит из одного остаточного блока с depthwise-разделимой сверткой и скрытой размерностью 128, обучаемого для восстановления искаженных окон временных рядов; на этапе вывода оценка производится с помощью фиксированной параметризации структурной функции рассогласования. Несмотря на отсутствие механизма внимания, латентных переменных и состязательных компонентов, JuRe занимает второе место в многомерном бенчмарке TSB-AD (AUC-PR 0.404, 180 рядов, 17 наборов данных) и второе место в архиве UCR для одномерных рядов по метрике AUC-PR (0.198, 250 рядов), опережая все нейросетевые базовые методы по AUC-PR и VUS-PR. Абляционный анализ на TSB-AD выявил, что ключевым фактором является искажение данных во время обучения (ΔAUC-PR = 0.047 при его удалении), подтверждая, что качество обнаружения определяется целевой функцией денизинга, а не емкостью сети. Попарные тесты Уилкоксона показали статистическую значимость превосходства над 21 из 25 базовых методов на TSB-AD. Код доступен по ссылке https://github.com/iis-esslingen/JuRe.
Мы представляем Terminal Wrench — набор из 331 тестовой среды для терминальных агентов, заимствованный из популярных открытых бенчмарков, которые демонстративно уязвимы к взлому систем вознаграждения. Набор данных включает 3 632 траектории взлома и 2 352 легитимные базовые траектории, полученные на трех передовых моделях (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Каждая запись сохраняет оригинальное условие задачи вместе с полными траекториями атаки, показывающими, как был обойден верификатор. Также включены случаи, когда задача не была решена предусмотренным способом. Задачи охватывают системное администрирование, машинное обучение, разработку программного обеспечения и задачи безопасности; эксплойты варьируются от простой подмены вывода до интроспекции стека, модификации стандартных библиотек и перехвата управления бинарными файлами на уровне руткитов. Ключевым моментом является то, что эти эксплойты специфичны для каждой задачи, а не для системы оценки, что затрудняет их исправление. Мы также представляем исследование мониторинга, в котором траектории взлома очищаются или лишаются трасс рассуждений, а затем оцениваются LLM-судией, показывая, что обнаружение значительно ухудшается при удалении цепочки рассуждений (AUC падает с 0.97 до 0.92). Набор данных общедоступен по адресу https://github.com/few-sh/terminal-wrench.
Самая важная архитектурная проблема в ИИ заключается не в размере модели, а в отсутствии слоя, который сохранял бы и передавал дальше то понимание, которое модель приобрела. Сессии заканчиваются. Контекстные окна заполняются. API памяти возвращают плоские факты, которые модель вынуждена заново интерпретировать при каждом чтении. Результатом является интеллект, мощный в рамках одной сессии, но страдающий амнезией с течением времени. В данной позиционной статье утверждается, что слой, устраняющий эту проблему — слой непрерывности, — является наиболее важным элементом инфраструктуры, который индустрия еще не построила, и что инженерная работа по его созданию уже началась в открытом доступе. Формальной системой оценки для описываемого свойства является бенчмарк ATANT (arXiv:2604.06710), опубликованный отдельно вместе с результатами оценки на корпусе из 250 историй; сопутствующая статья (arXiv:2604.10981) сравнивает данную систему с существующими бенчмарками для памяти, длинного контекста и агентской памяти. В статье непрерывность определяется как системное свойство с семью обязательными характеристиками, отличное от памяти и извлечения информации; описывается примитив хранения (Память со Схождением Декомпозированных Трасс), чья декомпозиция при записи и реконструкция при чтении порождают это свойство; инженерная архитектура соотносится с теологическим паттерном кеносиса и символическим паттерном Альфы и Омеги, причем утверждается, что это соответствие является структурным, а не метафорическим; предлагается траектория развития из четырех этапов — от внешнего SDK до аппаратного узла и долгосрочной человеческой инфраструктуры; исследуется, почему физические ограничения, сдерживающие сейчас развитие модельного слоя, делают слой непрерывности вновь актуальным; и доказывается, что архитектура управления (приватность, реализованная как физика, а не политика, не подлежащие обсуждению архитектурные обязательства, закрепленные за основателями через особый класс акций) неотделима от самого продукта.
Представления в виде сценовых графов обеспечивают структурированное понимание визуальной информации путем моделирования объектов и их взаимосвязей и широко используются для анализа многовидовых и трехмерных сцен. Существующие методы, такие как MSG, обучают эмбеддинги сценовых графов в евклидовом пространстве с использованием контрастивного обучения и ассоциации на основе внимания. Однако евклидова геометрия не позволяет явно захватывать иерархические отношения следования между местами и объектами, что ограничивает структурную согласованность изучаемых представлений. Для решения этой проблемы мы предлагаем Гиперболический Сценовый Граф (HSG), который обучает эмбеддинги сценовых графов в гиперболическом пространстве, где иерархические отношения естественным образом кодируются через геометрическое расстояние. Наши результаты показывают, что HSG улучшает качество иерархической структуры, сохраняя при этом высокую производительность поиска. Наибольший прирост наблюдается в метриках на уровне графа: HSG достигает PP IoU 33.17 и наивысшего Graph IoU 33.51, превосходя лучший вариант AoMSG (25.37) на 8.14, что подчеркивает эффективность гиперболического обучения представлений для моделирования сценовых графов. Код: https://github.com/AIGeeksGroup/HSG.
Крупные языковые модели с декодерной архитектурой (LLM) все чаще заменяют архитектуры стиля BERT в качестве основы для плотного поиска, демонстрируя значительный прирост производительности и широкое внедрение. Однако устойчивость этих ретриверов на основе LLM остается малоизученной. В данной статье мы представляем первое систематическое исследование устойчивости передовых открытых ретриверов на основе LLM с двух взаимодополняющих перспектив: обобщаемости и стабильности. Для оценки обобщаемости мы анализируем эффективность поиска на четырех бенчмарках, охватывающих 30 наборов данных, используя линейные модели со смешанными эффектами для оценки маргинальной средней производительности и разделения внутренней способности модели от неоднородности данных. Наш анализ показывает, что хотя модели, дообученные с инструкциями, в целом преуспевают, модели, оптимизированные для сложных рассуждений, часто страдают от «налога на специализацию», демонстрируя ограниченную обобщаемость в более широких контекстах. Для оценки стабильности мы проверяем устойчивость моделей как к непреднамеренным вариациям запросов (например, парафразы, опечатки), так и к злонамеренным атакам (например, отравление корпуса). Мы обнаружили, что ретриверы на основе LLM демонстрируют повышенную устойчивость к опечаткам и отравлению корпуса по сравнению с базовыми encoder-only моделями, но остаются уязвимыми к семантическим возмущениям, таким как синонимизация. Дальнейший анализ показывает, что геометрия эмбеддингов (например, угловая равномерность) предоставляет прогностические сигналы для лексической стабильности и указывает на то, что увеличение размера модели, как правило, повышает устойчивость. Эти результаты информируют о будущем проектировании ретриверов с учетом устойчивости и принципиальном бенчмаркинге. Наш код общедоступен по адресу https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.
Мы представляем первую версию KWBench (Knowledge Work Bench) — эталонный тест для оценки способности больших языковых моделей к самостоятельному распознаванию проблем: может ли ИИ-модель идентифицировать профессиональный сценарий до попытки его решения. Существующие передовые бенчмарки достигли насыщения, а большинство оценок интеллектуального труда сводятся к извлечению данных или выполнению задач по спецификации. KWBench фокусируется на этапе, предшествующему этому: распознавании структуры, управляющей ситуацией, на основе только исходных данных. Бенчмарк содержит 223 задания, предоставленные практиками из сфер поглощений, договорных переговоров, клинической фармации, организационной политики, анализа мошенничества и проектирования стимулов. Каждое задание кодирует формальную игротеоретическую модель (конфликт принципала и агента, сигнализирование, провал механизма проектирования, стратегическое упущение, коалиционная динамика, стратегическая взаимозависимость) и содержит структурированную эталонную разметку, фиксирующую экспертную интерпретацию ситуации и ожидаемые режимы сбоев. Модели получают сырые данные и формулировку задачи без указания типа проблемы. Оценка проводится по трехуровневой рубрике с обязательной конъюнктивной проверкой. Обязательные критерии кодируют предсказанные ошибочные пути. Мы оценили 16 моделей. Лучшая модель справляется с 27.9% задач. Две лучшие модели совпадают в результатах только по 31.7% успешно решенных задач. Среди топ-8 моделей 44 задачи решены ровно одной моделью; маршрутизация между топ-8 моделями покрывает 50.7% бенчмарка — почти вдвое больше, чем лучшая одиночная модель. При условии успешного прохождения качественные оценки сходятся (примерно 83% для всех моделей); безусловные оценки расходятся. Те же модели правильно формулируют соответствующие игротеоретические концепции при прямом запросе, но не применяют их самостоятельно. Мы публикуем KWBench, чтобы изменить подход к оценке передовых моделей в сфере интеллектуального труда, измеряя их способность распознавать правильную проблему исходя только из контекста ситуации, а не только то, насколько хорошо они выполняют задачу после того, как проблема была для них сформулирована.
Искусственные интеллектуальные агенты, взаимодействующие со своей средой через инструменты, открывают возможности для создания мощных приложений. Однако в бизнес-средах с высокими ставками непреднамеренные действия могут привести к неприемлемому ущербу, такому как утечка конфиденциальных данных и финансовые потери. Существующие методы снижения рисков, такие как подходы на основе обучения и нейросетевые защитные механизмы, повышают надежность агентов, но не могут обеспечить гарантий. Мы исследуем символические защитные механизмы как практический путь к обеспечению строгих гарантий безопасности и защищенности ИИ-агентов. Наше трехчастное исследование включает систематический обзор 80 современных бенчмарков безопасности и защищенности агентов для выявления оцениваемых ими политик, анализ того, какие требования политик могут быть гарантированы символическими механизмами, и оценку влияния символических механизмов на безопасность, защищенность и успешность агентов на τ²-Bench, CAR-bench и MedAgentBench. Мы выяснили, что 85% бенчмарков не имеют конкретных политик, полагаясь вместо этого на недостаточно определенные высокоуровневые цели или здравый смысл. Среди специфицированных политик 74% требований могут быть обеспечены символическими защитными механизмами, часто с использованием простых и недорогих методов. Эти механизмы повышают безопасность и защищенность без ущерба для полезности агента. В целом, наши результаты позволяют предположить, что символические защитные механизмы являются практичным и эффективным способом гарантировать выполнение некоторых требований безопасности и защищенности, особенно для предметно-ориентированных ИИ-агентов. Все коды и артефакты доступны по адресу https://github.com/hyn0027/agent-symbolic-guardrails.
Дистилляция знаний — широко применяемая техника передачи возможностей больших языковых моделей (LLM) более компактным и эффективным студенческим моделям. Однако несанкционированное использование дистилляции знаний несправедливо использует значительные усилия и затраты, вложенные в разработку передовых моделей. Мы исследуем методы модификации трасс рассуждений, сгенерированных учителем, для достижения двух целей, препятствующих несанкционированной дистилляции: (1) анти-дистилляция, то есть снижение полезности ответов на запросы для обучения, и (2) водяные знаки API, которые внедряют верифицируемые подписи в студенческие модели. Мы представляем несколько подходов к динамическому переписыванию выводов рассуждений учителя с сохранением правильности ответа и семантической связности. Два из них используют возможности LLM по переписыванию текста, а другие — градиентные методы. Наши эксперименты показывают, что простой подход к переписыванию на основе инструкций достигает сильного анти-дистилляционного эффекта, сохраняя или даже улучшая производительность учителя. Кроме того, мы демонстрируем, что наш подход к переписыванию также позволяет внедрять водяные знаки, которые можно надежно обнаружить практически без ложных срабатываний. Наш код доступен по адресу https://github.com/xhOwenMa/trace-rewriting.