Ежедневно отобранные исследовательские статьи по ИИ с переводами
Агенты поиска на основе больших языковых моделей (LLM) продемонстрировали большой потенциал для решения задач, требующих интенсивного использования знаний, за счет многократного рассуждения и поиска информации. Большинство существующих систем получают доступ к информации с помощью поискового модуля, который принимает ключевое слово или запрос на естественном языке и возвращает ранжированный список документов, используя индекс предварительно вычисленных представлений документов. В данной работе мы исследуем дополнительную перспективу, в которой агент поиска рассматривает сам корпус как среду поиска и находит доказательства, выполняя исполняемые команды оболочки. Мы представляем GrepSeek — оптимизированный агент поиска с прямым взаимодействием с корпусом (DCI), который обучает компактного агента поиска находить, фильтровать и составлять доказательства из больших текстовых корпусов. Для преодоления нестабильности обучения с непосредственным использованием обучения с подкреплением на больших корпусах мы предлагаем двухэтапный конвейер обучения. Сначала мы создаем набор данных холодного старта с помощью осведомленного об ответе Репетитора и не учитывающего ответы Планировщика для генерации проверенных траекторий поиска, имеющих причинно-следственную основу. Затем мы уточняем инициализированную политику с помощью групповой относительной оптимизации политики (GRPO), позволяя агенту улучшить свое целенаправленное поведение при поиске за счет прямого взаимодействия с корпусом. Чтобы обеспечить практическую применимость DCI в масштабе, мы дополнительно используем сохраняющий семантику шардированный параллельный механизм выполнения, который ускоряет поиск на основе команд оболочки до 7,6 раза, сохраняя при этом побайтовую эквивалентность с последовательным выполнением команды оболочки. Эксперименты на семи эталонных тестах по ответам на вопросы в открытой области показывают, что GrepSeek достигает наилучших общих показателей F₁ на уровне токенов и точного совпадения. Наш анализ также подчеркивает ограничения чисто лексического взаимодействия для запросов со значительными вариациями поверхностной формы, что позволяет предположить DCI как практичный и конкурентоспособный метод для агентов поиска, который может дополнять существующие парадигмы поиска в реальных условиях.
Агенты на основе LLM всё чаще должны не просто выполнять изолированные задачи, но и нести в себе ограниченные представления о человеческом опыте, суждениях и стиле взаимодействия. Создание таких агентов, привязанных к личности, остаётся сложной задачей, поскольку применимые знания, связанные с конкретным человеком или ролью, обычно встроены в разнородные следы, а не записаны в виде чётких инструкций. Существующие системы памяти и персоны фиксируют фрагменты этих данных, а фреймворки навыков предлагают портативные форматы упаковки; однако отсутствует сквозной рабочий процесс для дистилляции этих следов в проверяемые, корректируемые и пригодные для использования агентами навыки. Мы представляем автоматизированную систему дистилляции следов в навыки для генерации навыков ИИ, привязанных к личности, посредством дистилляции экспертных знаний. На основе материалов от целевого человека или роли COLLEAGUE.SKILL создаёт версионированный пакет навыков с двумя скоординированными треками: треком возможностей для практик, ментальных моделей и эвристик принятия решений, а также треком ограниченного поведения для стиля общения, правил взаимодействия и истории исправлений. Пакет можно проверять, вызывать, обновлять с помощью обратной связи на естественном языке, откатывать, устанавливать на хосты агентов и при необходимости подготавливать к контролируемому распространению. Мы описываем контракт артефакта, рабочий процесс генерации, жизненный цикл исправлений, поверхность развёртывания и доменные предустановки, реализованные в системе с открытым исходным кодом. На момент написания статьи публичный репозиторий насчитывает около 18,5 тыс. звёзд на GitHub; в галерее перечислено 215 навыков от 165 авторов, а суммарное количество звёзд по всем представленным карточкам навыков превышает 100 тыс. Система демонстрирует, как навыки, привязанные к личности, могут быть представлены в виде портативных, корректируемых пакетов, а не непрозрачных промптов или скрытой памяти.
Дистилляция на политике (On-policy distillation, OPD) обучает студента на префиксах, семплированных из его собственной политики, одновременно подражая более сильному учителю. Это решает проблему несоответствия префиксов, присущую офлайн-дистилляции, однако ранние развертывания студента могут по-прежнему быть низкого качества, помещая супервизию учителя на слабые или некачественные префиксы. Мы предлагаем метод смешивания поведенческой политики с учетом доверительной области (Trust-Region behavior Blending, TRB) — метод разогрева, который заменяет политику ранних развертываний на поведенческую политику, наиболее близкую к учителю, внутри ориентированной на студента KL-области доверия, оставляя при этом потерю обратной KL-дивергенции для каждого префикса в OPD неизменной. Бюджет KL-дивергенции плавно уменьшается до нуля, так что после разогрева обучение возвращается к чистым развертываниям студента. В двух конфигурациях дистилляции для задач математического рассуждения метод TRB достигает наилучшего среднего результата среди сравниваемых методов.
Унифицированные мультимодальные модели (UMM) направлены на выполнение задач восприятия и генерации в рамках единой модели. Однако существующие UMM по-прежнему полагаются на замороженный, отдельно предобученный VAE для генерации изображений, что создает структурное узкое место. Наивное удаление такого VAE приводит к потере качества, поскольку модель должна одновременно изучать как высокоуровневую структуру, так и низкоуровневые детали на основе сырых пикселей. В данной статье мы предлагаем технику принудительного представления (Representation Forcing, RF), которая устраняет этот разрыв, делая предсказание представлений естественной способностью модели. Конкретно, RF принуждает декодер авторегрессивно предсказывать визуальные представления в качестве промежуточных токенов перед пикселями; затем эти токены остаются в контексте для управления пиксельной диффузией в рамках той же основной архитектуры. Превращая представления из выходных данных восприятия в цели генерации, RF устраняет необходимость во внешнем генеративном латентном пространстве. Мы обнаружили, что RF улучшает как понимание, так и генерацию. В задачах генерации изображений наша модель, работающая в пиксельном пространстве с RF, достигает результатов, сопоставимых с современными унифицированными моделями на основе VAE. В задачах понимания изображений пиксельная версия RF в целом превосходит свой аналог на основе VAE. В совокупности эти результаты представляют собой эффективный шаг к созданию сквозных UMM без узких мест.
Мы представляем Mellum 2 — языковую модель с открытыми весами, содержащую 12 миллиардов параметров в архитектуре «Смесь экспертов» (MoE) с 2,5 миллиарда активных параметров на токен. Mellum 2 — это языковая модель общего назначения, специализирующаяся на программной инженерии, включая генерацию и редактирование кода, отладку, многошаговые рассуждения, использование инструментов и вызов функций, агентное кодирование, а также диалоговую помощь в программировании. Она является преемником плотной 4-миллиардной модели Mellum, ориентированной на завершение кода. Архитектура основана на «Смеси экспертов» (64 эксперта, 8 активных) и объединяет «Групповое запросное внимание» с 4 KV-головами, «Внимание со скользящим окном» на трёх из каждых четырёх слоёв, а также одну голову «Многотокенового предсказания», которая одновременно служит вспомогательной целью предварительного обучения и встроенной моделью-заготовкой для спекулятивного декодирования; каждый из этих выборов был подтверждён с помощью абляции, при этом эффективность инференса на массовых графических процессорах оставалась проектным ограничением. Предварительное обучение включало около 10,6 триллиона токенов по трёхфазному учебному плану, который постепенно смещал смесь данных от разнообразных веб-источников к подобранному коду и математическому контенту; обучение оптимизировалось с помощью Muon в режиме гибридной точности FP8 и с расписанием «Разогрев-Удержание-Затухание» с линейным затуханием до нуля. Предварительно обученная базовая модель была расширена до контекстного окна в 128K с помощью послойного YaRN, а затем дообучена в два этапа (контролируемая тонкая настройка с последующим RLVR). В результате выпущены два варианта: модель Instruct, отвечающая напрямую, и модель Thinking, выдающая явный цепочку рассуждений перед финальным ответом. По тестам генерации кода, математики и рассуждений, использования инструментов, знаний и безопасности Mellum 2 конкурентоспособна с бейзлайнами с открытыми весами в диапазоне 4–14 миллиардов параметров, при этом выполняя вычисления на уровне плотной модели с 2,5 миллиардами параметров на токен. Мы публикуем базовый, инструктивный и мыслительный контрольные точки вместе с данным отчётом об архитектурных решениях, пайплайне данных и рецепте обучения под лицензией Apache 2.0.
Zero-shot TTS (текст-в-речь без обучения на целевых голосах) существенно улучшился для одноголосного синтеза, однако выразительная многоголосая диалоговая речь в длинных форматах остаётся сложной задачей. Распространённый обходной путь — синтезировать каждую реплику моделью монологической TTS и склеивать результаты. Это увеличивает вычислительные затраты при инференсе и часто нарушает акустическую согласованность, связность диалога и эмоциональную непрерывность между репликами. Недавние системы диалогового TTS начали решать эту задачу, но им всё ещё трудно одновременно поддерживать выразительную связность, управляемое переключение говорящих и качество монолога. Мы представляем SwanData-Speech и SwanVoice. SwanData-Speech строит корпуса монологов и диалогов на основе аудиозаписей «из дикой природы», используя Swan Forced Aligner для пословного выравнивания с учётом пауз и RobustMegaTTS3 для сложных случаев произношения. Основанная на этих данных, SwanVoice — это модель zero-shot TTS для 1–4 говорящих, объединяющая VAE с частотой 25 Гц, кондиционирование на сыром тексте с символами, учитывающими паузы, и заменой на пиньинь, а также DiT с согласованием потоков и кондиционированием по репликам говорящих. Обучение начинается с монологической речи, затем переходит к смешанным данным и реальным диалогам, после чего применяется пост-обучение с помощью DiffusionNFT с вознаграждениями на уровне фонем и сходства голосов. На SwanBench-Speech SwanVoice получает более высокие показатели богатства и иерархичности, чем все оценённые открытые базовые модели как в монологическом, так и в диалоговом режимах, при этом точность содержания остаётся основным ограничением. Аудиодемонстрации доступны по адресу https://swanaigc.github.io//#swanvoice.
Долгоконтекстное рассуждение остается ключевой задачей для больших языковых моделей, которые часто не могут найти и интегрировать ключевую информацию среди обширного отвлекающего контента. Обучение с подкреплением на основе верифицируемых вознаграждений (RLVR) продемонстрировало перспективность для этой задачи, однако существующие методы ограничены дистракторами с низкой запутанностью и разреженными сигналами вознаграждения, ориентированными только на результат, которые не могут контролировать промежуточные шаги рассуждения. Для решения этих проблем мы представляем LongTraceRL. Для построения данных мы генерируем многопереходные вопросы с помощью случайных блужданий по графу знаний и используем траектории поискового агента для создания иерархических дистракторов: документов, которые агент прочитал, но не процитировал (высокая запутанность), и документов, которые появились в результатах поиска, но никогда не открывались (низкая запутанность). Это создает обучающие контексты, значительно более сложные, чем те, что построены с помощью случайной выборки или одноразового поиска. Для разработки вознаграждения мы предлагаем рубричное вознаграждение, которое использует истинные сущности вдоль каждой цепочки рассуждения в качестве мелкозернистого контроля процесса на уровне сущностей. Это рубричное вознаграждение применяется только к ответам с правильными итоговыми ответами (стратегия только положительных ответов), что позволяет различать качество рассуждений среди правильных ответов и предотвращает взлом вознаграждения. Эксперименты на трех моделях LLM для рассуждения (4B–30B) по пяти долгоконтекстным эталонным тестам показывают, что LongTraceRL стабильно превосходит сильные базовые линии и способствует всестороннему, обоснованному доказательствами рассуждению. Коды, наборы данных и модели доступны по адресу https://github.com/THU-KEG/LongTraceRL.
Большинство методов синтеза трёхмерных сцен в помещениях, основанных на текстовых описаниях, генерируют комнаты по объектно-ориентированным запросам, отвечая на вопрос, какую мебель следует разместить, а не как используется пространство. Однако в реальном дизайне интерьера планировка оценивается по тому, насколько хорошо она поддерживает её обитателей, например, их деятельность и физические потребности. Мы представляем Function2Scene — фреймворк для генерации трёхмерных планировок помещений на основе функциональных спецификаций, то есть текстовых дизайн-брифов на естественном языке, описывающих, кто будет использовать комнату и что им необходимо в ней делать. Получив такую спецификацию, наша система анализирует портреты обитателей и их действия, выводит индивидуальный набор функциональных ограничений проектирования из таксономии, включающей 17 критериев, охватывающих пространственные, эргономические, деятельностные и экологические аспекты, и использует эти ограничения для управления генерацией планировки. Вместо того чтобы полагаться на большую языковую модель (LLM) для прямого создания финальной сцены, Function2Scene выполняет итеративную оценку и уточнение через цикл проверки и исправления с использованием инструментов, сочетая геометрические измерения, контекстуальное рассуждение на основе LLM и визуальную оценку на основе VLM (модели визуально-языкового понимания). Эксперименты на 30 профессионально написанных примерах дизайна интерьеров показывают, что Function2Scene создаёт планировки, лучше удовлетворяющие функциональным требованиям, чем недавние базовые методы синтеза сцен на основе LLM, причём наши результаты предпочитаются в 94,3% попарных сравнений. Наша работа переосмысляет текстово-ориентированный синтез трёхмерных сцен: от размещения правдоподобных объектов к проектированию пространств, поддерживающих человеческое использование.
Восстановление изображений (ВИ) в реальных условиях ограничено нехваткой качественных парных обучающих данных. Синтетические наборы данных многочисленны, но часто не моделируют реальные искажения, в то время как реальные парные наборы данных дороги и сложны в получении. В результате модели ВИ, обученные на таких наборах, демонстрируют ограниченную способность к обобщению в реальных сценариях. В данной работе мы предлагаем концепцию генеративных эталонных данных (Generative Ground Truth, GGT), используя генеративные мультимодальные фундаментальные модели (МФМ) для получения целевых изображений высокого качества (ВК) из реальных изображений низкого качества (НК). Сначала мы проводим систематическую оценку девяти современных МФМ, включая Nano-Banana-2 и GPT-Image-2, на изображениях различных сцен и типов искажений. Результаты показывают, что Nano-Banana-2 с адаптивным промптингом на основе VLM демонстрирует наивысшую способность синтезировать перцептивно реалистичные и верные содержанию цели ВК, которые могут служить в качестве GGT для входных данных НК. Затем мы используем Nano-Banana-2 для создания конвейера синтеза GGT, который включает многоэтапный контроль качества для обеспечения надежности данных, и формируем GGT-100K — парный набор данных НК-ВК, содержащий 103 707 обучающих пар и охватывающий разнообразные сцены и сложные реальные искажения. Также создан тестовый набор из 500 пар изображений. Обширные эксперименты показывают, что GGT-100K последовательно улучшает обобщение на реальные данные для широкого спектра моделей ВИ, причем особенно сильный эффект наблюдается при тонкой настройке генеративных моделей для задач ВИ. Наши результаты свидетельствуют о том, что МФМ могут служить практическими инструментами для генерации данных, ориентированной на восстановление, а GGT-100K является полезным ресурсом для расширения границ обобщения моделей ВИ в реальных условиях.
Генерация пространственного аудио в реальном времени с высокой точностью является ключевым фактором для создания захватывающего опыта. Однако существующие технологии синтеза пространственного аудио часто сталкиваются с компромиссом между качеством генерации и высокой задержкой вывода, а также с трудностью точного извлечения пространственной информации из мультимодальных входных данных. Для решения этих задач мы предлагаем SwanSphere — единую потоковую платформу для высококачественной генерации пространственного аудио на основе панорамных видео и текстовых подсказок. SwanSphere вносит следующие основные вклады: 1) Мы представляем архитектуру каузального авторегрессионного диффузионного трансформера, которая обеспечивает потоковую генерацию пространственного аудио высокого качества. 2) Мы разрабатываем стратегию контрастного обучения пространственного видео и аудио (Spatial Video-Audio Contrastive, SVAC) для согласования видеокодера с акустической областью, а также применяем схему многокритериальной онлайн-оптимизации прямых предпочтений (multi-objective online direct preference optimization, ODPO), что приводит к сильному пространственному восприятию и надежному мультимодальному синтезу пространственного аудио. 3) Для смягчения текущей нехватки наборов данных пространственного аудио мы также разрабатываем автоматизированный конвейер аннотирования для создания подробных пространственных описаний. Экспериментальные результаты показывают, что SwanSphere достигает превосходных результатов как в задачах генерации пространственного аудио из видео, так и из текста. Демонстрации доступны по адресу: https://swanaigc.github.io.
Редактирование видео в реальном времени (V2V) имеет критическое значение для интерактивных приложений, таких как прямые трансляции и игры, однако остается сложной задачей из-за строгих требований к временной согласованности и пропускной способности инференса. В этой статье мы представляем SANA-Streaming — совместно разработанную системно-алгоритмическую платформу для высококачественного редактирования потокового видео в реальном времени с высоким разрешением на потребительских GPU, основанную на трех ключевых компонентах: (1) Гибридная архитектура Diffusion Transformer, которая вводит softmax-внимание в части блоков для улучшения возможностей локального моделирования при сохранении эффективности линейных слоев. (2) Регуляризация с циклом реверса (Cycle-Reverse Regularization) — новый метод обучения, обеспечивающий семантическую согласованность путем предсказания исходных кадров из сгенерированного контента с помощью согласования потоков (flow matching), что улучшает временную согласованность без необходимости парных длинных отредактированных видео. (3) Эффективная совместная оптимизация системы, объединяющая fused GDN-ядра и смешанно-квантованные вычисления (Mixed-Precision Quantization, MPQ), оптимизированные для архитектуры NVIDIA Blackwell (RTX 5090). Профилируя реальную пропускную способность, наш MPQ максимизирует загрузку тензорных ядер при сохранении качества генерации. Результирующая система достигает редактирования в реальном времени с разрешением 1280 × 704 пикселей при 24 кадрах в секунду (end-to-end) на одном GPU RTX 5090, при этом ядро DiT работает со скоростью 58 FPS. Экспериментальные результаты показывают, что наш совместно разработанный подход значительно превосходит существующие SOTA-методы как по временной согласованности, так и по пропускной способности системы.
Недавние достижения в области синтеза речи позволили добиться высококачественного воспроизведения, однако систематическая оценка моделей в условиях длинного контекста остается в значительной степени неизученной. Комплексный оценочный бенчмарк для протяженной речи необходим по двум причинам: 1) существующие тестовые сценарии часто ограничены узкими областями, что создает значительный разрыв с разнообразными прикладными задачами; 2) существующие метрики упускают из виду важные для длинных текстов факторы, такие как согласованность и когерентность, и не обеспечивают надежного обобщения. С этой целью мы предлагаем Swanbench-Speech — всеобъемлющий бенчмарк, который декомпозирует качество протяженной речи на отдельные, независимые измеримые аспекты. SwanBench-Speech обладает тремя ключевыми свойствами: 1) богатые речевые сценарии: фокусируясь на генерации протяженной речи и диалогов, SwanBench-Speech охватывает задачи акустики, семантики и выразительности и включает 1101 образец, относящийся к 17 распространенным речевым сценариям; 2) всесторонние оценочные измерения: по осям акустики, семантики и выразительности SwanBench-Speech определяет протокол автоматической оценки с семью метриками для комплексной, точной и стандартизированной оценки; 3) ценные выводы: посредством обширных экспериментов мы выявляем, что современные модели все еще испытывают трудности в высокоэкспрессивных сценариях и демонстрируют заметный разрыв в согласованности и иерархичности по сравнению с реальными записями.
Долговременная память необходима мультимодальным агентам для построения связного опыта, накопления знаний о мире и обеспечения непрерывного обучения. Однако создание эффективной памяти выходит за рамки проектирования модуля памяти и базовых требований, таких как точность и достоверность; ключевая задача заключается в определении того, что именно следует запоминать. Мультимодальные агенты, например воплощенные агенты, непрерывно воспринимают, рассуждают и действуют в реальной или виртуальной среде, получая неограниченный поток мультимодальных наблюдений. Из этого комбинаторного взрыва информации агент должен избирательно сохранять содержимое, релевантное его роли в среде и ценное для будущих задач. Для преодоления этого разрыва мы формулируем генерацию памяти как обучаемую политику запоминания и представляем TaskMem (Task-focused Memorization Policy Learning) — фреймворк на основе обучения с подкреплением, который позволяет политике динамически адаптировать фокус к требованиям реальных задач, встречающихся в среде. TaskMem использует двухэтапную парадигму обучения: на первом этапе агент учится тому, как запоминать, оптимизируя качество памяти при соблюдении фундаментальных требований достоверности; второй этап наступает после развертывания, когда агент учится тому, что запоминать, настраивая адаптер на своей базовой мультимодальной большой языковой модели (MLLM), используя недавние задачи среды для определения модели вознаграждения, направляющей политику запоминания на извлечение релевантного задаче содержимого. Для оценки нашего подхода мы переформулируем наборы данных VideoMME, EgoLife и EgoTempo в потоковые бенчмарки, моделирующие реалистичные условия, в которых агент обрабатывает потоковые наблюдения и выполняет задачи, поступающие онлайн. Для изолированной оценки памяти вопросы должны отвечаться только с использованием памяти агента, без доступа к исходному видео. Построенный на основе Qwen3-VL-30B-A3B, TaskMem повышает точность VQA на 6,3%, 7,0% и 5,3% на этих бенчмарках соответственно.
Недавно появившиеся диффузионные большие языковые модели (dLLM) стали многообещающей альтернативой авторегрессионным моделям, предлагая конкурентоспособную производительность при естественной поддержке параллельного декодирования. Однако по мере интеграции dLLM с архитектурами на основе смеси экспертов (MoE) для масштабирования ёмкости модели возникает фундаментальное несоответствие между блочным параллельным декодированием и выбором экспертов на уровне токенов. В частности, каждый прямой проход dLLM обрабатывает несколько токенов с двунаправленными зависимостями, тогда как стандартные слои MoE маршрутизируют каждый токен независимо. Это несоответствие существенно увеличивает количество уникально активированных экспертов, делая инференс всё более ограниченным по памяти. Для решения этой проблемы мы предлагаем dMoE — простую, но эффективную блочную структуру MoE. Основная идея dMoE заключается в агрегации распределений экспертов на уровне токенов внутри каждого блока в единое блочное распределение экспертов, которое затем используется для более согласованной маршрутизации. Таким образом, dMoE значительно сокращает количество уникально активированных экспертов во время инференса без потери производительности, снижая тем самым узкое место по памяти. Обширные эксперименты на различных тестовых наборах демонстрируют эффективность dMoE. В среднем dMoE сокращает количество уникально активированных экспертов с 69,5 до 14,6, сохраняя при этом 99,11% исходной производительности. Одновременно это снижает использование памяти на 76,64%–79,84% и обеспечивает ускорение сквозной задержки в 1,14–1,66 раза. Код доступен по адресу: https://github.com/fscdc/dMoE
Дистилляция по текущей политике (OPD) обучает ученика на его собственных роллах с супервизией учителя на уровне токенов. Недавние методы селективной OPD используют неравномерность сигналов OPD, отдавая приоритет токенам с высокой энтропией или высоким расхождением. Мы пересматриваем этот принцип и задаемся вопросом: какие сигналы учителя на уровне токенов на самом деле обучаемы? Используя диагностику с фиксированным контекстом, измеряющую снижение KL-расхождения между учителем и учеником в том же контексте, мы показываем, что сырое KL-расхождение является грубой аппроксимацией обучающей ценности. Оно смешивает обучаемое расхождение, при котором учитель назначает корректирующую массу на топ-K кандидатов ученика, с несовместимым расхождением, при котором учитель размещает массу в основном вне текущей поддержки ученика. Мы формализуем эту локальную совместимость как обучаемость токена и показываем, что она лучше предсказывает улучшение в фиксированном контексте, чем одно сырое KL-расхождение. Руководствуясь этим результатом, мы предлагаем OPD с учетом обучаемости (TA-OPD) — легковесный метод выбора позиций токенов, который применяет потери OPD к позициям с высокой обучаемостью без моделей вознаграждения или верификаторов. В настройках учитель-ученик для Qwen2.5 и Qwen3 TA-OPD часто превосходит полную OPD при сохранении всего 5% токенов и улучшает результаты по сравнению с базовыми методами, основанными на энтропии и расхождении. Наши результаты переосмысливают селективную OPD как выбор обучаемых сигналов учителя, а не просто значимых токенов.
Обучение с помощью самоигры позволяет тренировать языковые модели без внешнего контроля. Однако существующие методы требуют ответов, проверяемых по правилам, оставляя задачи открытого типа зависимыми от подобранных подсказок или оценщиков на основе передовых моделей. Мы представляем SCOPE — фреймворк для самоигры без данных применительно к задачам открытого типа, который совместно развивает две политики: Challenger, генерирующий задачи на основе документов, и Solver, отвечающий на них с помощью многоэтапного поиска. Замороженная копия исходной модели выступает в роли самооценщика, который составляет специфичные для задачи рубрики на основе исходного документа и оценивает ответы Solver в соответствии с ними. На трёх инструктивно-настроенных моделях размером 7–8B (Qwen2.5, Qwen3, OLMo-3) SCOPE улучшает производительность в задачах открытого типа до +10.4 баллов по восьми бенчмаркам и достигает или превосходит результаты GRPO_data, обученной на ~9K подобранных подсказок. Несмотря на обучение только на задачах открытого типа, SCOPE также улучшает производительность в отложенных коротких вопросах-ответах до +13.8 баллов по семи отложенным бенчмаркам, превосходя GRPO_data на всех трёх моделях. Абляции показывают, что совместная эволюция Challenger необходима для удержания задач вблизи границы возможностей Solver, что улучшения обусловлены как поиском, так и синтезом с варьированием относительного вклада в зависимости от задачи, и что качество генерации рубрик является узким местом самооценки.
Агентный поиск позволяет большим языковым моделям решать сложные многошаговые вопросы за счет итеративного рассуждения и внешнего поиска. Несмотря на эффективность, такие системы на практике часто страдают от критического ограничения: агенты не могут распознать границы собственных знаний, слепо инициируя поиск, когда внутренних знаний достаточно, и не прекращая поиск даже после сбора необходимого объема доказательств. Отсутствие самоосознания приводит к сильному избыточному поиску, что влечет за собой значительную задержку инференса и высокие вычислительные затраты. Для решения этой проблемы мы предлагаем SAAS — новый фреймворк обучения с подкреплением, предназначенный для развития динамического самоосознания, которое точно регулирует поведение поиска без потери точности. SAAS включает три ключевых компонента: (i) механизм моделирования границ поиска, который выявляет границу поиска при развивающейся политике путем сопоставления траекторий с отключенным и включенным поиском; (ii) модуль вознаграждения с учетом границ, который преобразует это осознание границ в штрафы на уровне траектории, подавляя ненужные и избыточные поиски; и (iii) поэтапную стратегию оптимизации, использующую последовательный учебный план для приоритета рассуждения над регуляризацией поиска, что позволяет избежать искажения вознаграждения. Обширные эксперименты показывают, что SAAS существенно сокращает избыточный поиск, сохраняя при этом точность. Наш код анонимно опубликован по адресу https://github.com/XMUDeepLIT/SAAS.
Видео-языковые модели могут обрабатывать лишь ограниченное количество кадров, что делает выбор кадров ключевым узким местом для эффективного видеосубтитрирования. Большинство пайплайнов субтитрирования по-прежнему опираются на равномерную дискретизацию, которая является вычислительно дешёвой, но не учитывает визуальное содержание. В последнее время адаптивная дискретизация кадров стала перспективным подходом для выбора наиболее информативных кадров из видео; однако существующие методы остаются вычислительно затратными. Мы представляем PEEK — эффективный метод динамической дискретизации кадров, который дистиллирует ранжирование релевантности кадров по отношению к подписи от более сильной модели-учителя в лёгкую темпоральную модель, работающую только с визуальным содержанием. Мы обнаружили, что в целом на наборах данных ActivityNet Captions и MSR-VTT наш метод превосходит современные методы во всех оцениваемых нижележащих видео-языковых моделях, особенно когда для субтитрирования выбирается всего один или два кадра, достигая наилучшего значения CIDEr для большинства бюджетов кадров. На ActivityNet Captions PEEK особенно силён, выигрывая 14 из 16 конфигураций. Нулевая оценка на MSR-VTT показывает, что наша модель лучше всего переносится при низких бюджетах кадров, тогда как результаты при четырёх и восьми кадрах более неоднозначны, поскольку темпоральное покрытие и визуальное разнообразие становятся всё более конкурентоспособными. По сравнению с недавними адаптивными базовыми методами, PEEK является как более точным в режиме низкого бюджета, так и более эффективным: он добавляет всего 5,2% к времени субтитрирования, по сравнению с 65,4% для CSTA и 211,9% для MaxInfo. Мы публикуем наш код и предварительно обученную контрольную точку по адресу https://github.com/momentslab/peek.
Большие языковые модели (Large Language Models, LLM) демонстрируют высокую производительность в общих задачах, однако часто испытывают трудности при адаптации к специализированным областям без наличия качественных доменно-специфичных данных. Существующие методы курирования данных на основе LLM в основном опираются на ручные рабочие процессы, при этом остается неисследованным, могут ли LLM автономно выполнять сквозной конвейер инженерии данных для специализации модели. Мы формализуем автономную агентную инженерию данных (Autonomous Agentic Data Engineering) — новую задачу, предназначенную для оценки LLM в роли автономных инженеров данных, которые управляют специализацией модели посредством сквозного курирования данных. Мы рассматриваем данные как оптимизируемый компонент и изучаем агентов, которые планируют, генерируют и итеративно оптимизируют обучающие данные в нескольких областях, руководствуясь улучшением производительности после обучения. Эксперименты показывают, что автономные LLM-инженеры данных обеспечивают значительный прирост: GPT-5.2 создает учебную программу, которая повышает производительность модели-ученика на 57,29% исключительно за счет итеративной, управляемой агентом адаптации данных. Освещая как потенциал, так и узкие места, наше исследование утверждает автономную инженерию данных как измеримую способность и прокладывает путь к управляемой агентом специализации моделей. Код будет опубликован по адресу https://github.com/zjunlp/DataAgent.
Анализ реальных данных по своей сути является итеративным, однако существующие бенчмарки в основном оценивают изолированные или короткие интерактивные задачи, оставляя без проверки способность агентов отслеживать развивающийся аналитический контекст на длинных горизонтах. Мы представляем LongDS — бенчмарк для долгосрочного многошагового анализа данных, в котором агенты должны поддерживать, обновлять, восстанавливать и комбинировать развивающиеся аналитические состояния. LongDS состоит из 68 задач, построенных на основе реальных блокнотов Kaggle, охватывающих 2225 шагов в шести предметных областях, включая геонауку, бизнес и образование. Задачи разработаны вокруг паттернов эволюции состояний (например, контрфактическое возмущение, откат, композиция нескольких состояний) со средней протяженностью зависимостей в 11,3 шага. При оценке пяти современных моделей мы обнаружили, что лучшая модель достигает лишь 48,45% средней точности, производительность падает почти на 47 пунктов от ранних к поздним шагам, а ошибки на длинных горизонтах составляют от 52% до 69% всех отказов. Дальнейший анализ показывает, что дополнительные шаги агента не обязательно улучшают производительность, что указывает на то, что ключевым узким местом является поддержание правильного аналитического состояния, а не увеличение бюджета взаимодействий. Мы публикуем LongDS для поддержки исследований в области надежного долгосрочного агентного анализа данных. Код и данные будут опубликованы по адресу https://github.com/zjunlp/DataMind.
Визуально-языковые модели (Vision Language Models, VLM) позволяют решать разнообразные задачи компьютерного зрения с помощью единой модели, используя механизм промптинга. Они демонстрируют многообещающие результаты в области семантического понимания. Однако понимание трёхмерных сцен по-прежнему в значительной степени опирается на экспертные модели зрения, требующие сложных, специфичных для каждой задачи конструкций. Ключевой тезис данной работы заключается в том, что VLM по своей природе способны обучаться трёхмерным представлениям. Наше масштабное детальное исследование показывает, что для эффективного обучения трёхмерным задачам необходимы всего три компонента: 1) унификация фокусного расстояния, 2) текстовые ссылки на пиксели и 3) смешивание и масштабирование данных. Изменения архитектуры модели, использование больших моделей, усиленные аугментации данных и сложные функции потерь, включая регрессионную формулировку (многие из которых составляют основу экспертных моделей зрения), на самом деле не являются обязательными условиями. В результате мы предлагаем VLM3 — масштабируемый метод с максимально простым дизайном, который позволяет стандартным VLM успешно решать разнообразные трёхмерные задачи. VLM3 не только значительно повышает точность оценки глубины в VLM (с 0,84 до 0,9), но и обеспечивает выполнение таких трёхмерных задач, как установление соответствия между пикселями, оценка положения камеры и понимание трёхмерной сцены на уровне объектов, достигая точности экспертных моделей зрения при сохранении стандартной архитектуры и текстового обучения. Мы полагаем, что VLM3 открывает новую парадигму для простого и масштабируемого обучения трёхмерным представлениям.
В то время как механизмы внимания с линейной сложностью предлагают многообещающую альтернативу Softmax-вниманию для преодоления квадратичного узкого места, обучение таких моделей с нуля остается непомерно дорогим. Наследование весов от предварительно обученных трансформеров представляет собой привлекательный путь, однако фундаментальный разрыв в представлениях между Softmax и линейным вниманием препятствует эффективному переносу весов. В данной работе мы решаем эту задачу преобразования с двух точек зрения: архитектурного согласования и согласования представлений. Мы определяем Test-Time Training (TTT) как архитектуру с линейной сложностью, чья двухслойная динамическая формулировка структурно согласована с Softmax-вниманием, что позволяет напрямую наследовать предварительно обученные веса внимания. Для дальнейшего согласования свойств представлений, включая инвариантность к сдвигу ключей и локальность, мы вводим нормализацию экземпляров ключей и легковесный модуль улучшения локальности. Мы проверяем наш подход на примере линеаризации Stable Diffusion 3.5 и представляем SD3.5-T^5 (Transformer To Test Time Training). Всего за 1 час дообучения на 4×H20 GPU SD3.5-T^5 достигает качества преобразования текста в изображение, сопоставимого с дообученной Softmax-моделью, при этом ускоряя инференс в 1,32 и 1,47 раза при разрешениях 1K и 2K. Код доступен по адресу https://github.com/LeapLabTHU/Transformer-to-TTT.
Хотя GUI-агенты достигли значительного прогресса, им часто не хватает устойчивости для восстановления после собственных ошибок, что препятствует их развертыванию в реальных условиях. Для устранения этого пробела как на уровне оценки, так и на уровне данных мы представляем GUI-RobustEval и предлагаем синтез траекторий, управляемый устойчивостью. GUI-RobustEval содержит 1 216 исполняемых тестовых сценариев, которые систематически измеряют способности к восстановлению после ошибок в широком и реалистичном спектре режимов ошибок. На уровне данных RoTS представляет собой масштабируемую среду синтеза, которая создает 800 тысяч высококачественных данных с помощью древовидного конвейера, активно выявляющего различные режимы ошибок и синтезирующего соответствующие шаги восстановления. Наши две модели, RoTS-7B и RoTS-32B, дообученные на нашем наборе данных, демонстрируют значительные улучшения как на GUI-RobustEval, так и на традиционных тестах GUI. Примечательно, что RoTS-32B достигает самых современных показателей на OSWorld с 47,4% успешности и 33,8% по показателю All-Pass@4, что позволяет предположить, что улучшенная способность к восстановлению после ошибок на длинных горизонтах способствует как устойчивости, так и общей производительности. Наш код доступен по адресу https://github.com/AlibabaResearch/RoTS.
Агенты на основе больших языковых моделей (LLM) всё чаще развёртываются как системы, построенные вокруг редактируемой внешней обвязки, включающей подсказки, навыки, память и инструменты, которые управляют выполнением задач без изменения параметров модели. Самоэволюция обвязки адаптирует таких агентов путём обновления этой обвязки на основе свидетельств выполнения. Однако остаётся неясным, предсказывает ли базовая способность модели к решению задач её способности к самоэволюции обвязки: какие модели производят полезные обновления обвязки и какие из них действительно извлекают из них пользу? Мы анализируем две способности самоэволюции обвязки: (i) обновление обвязки — способность создавать полезные постоянные обновления обвязки на основе свидетельств выполнения; (ii) получение выгоды от обвязки — способность извлекать пользу из обновлённой обвязки при решении задач. Наш анализ выявляет два результата. Во-первых, способность к обновлению обвязки является плоской по отношению к базовой способности: модели из разных уровней способностей создают обновления обвязки, которые приводят к удивительно схожим улучшениям; даже обновления Qwen3.5-9B дают выигрыши, сравнимые с выигрышами Claude Opus~4.6. Во-вторых, получение выгоды от обвязки немонотонно по отношению к базовой способности: модели слабого уровня мало выигрывают от обновлённой обвязки, модели среднего уровня выигрывают больше всего, а модели сильного уровня выигрывают меньше, чем модели среднего уровня. Мы связываем низкие выигрыши на слабом уровне с двумя типами отказов: модели слабого уровня могут не активировать соответствующие артефакты обвязки или активировать их, но не следовать им надлежащим образом. Эти результаты предполагают, что бюджет вычислительных ресурсов следует вкладывать в агента, решающего задачи, а не в эволюционера, а также направлять внимание на вызов обвязки и следование долгосрочным инструкциям при обучении агентов. Исходный код общедоступен по адресу https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.
Агенты LLM эволюционируют от разговорных чат-ботов к операционным инструментам в реальных рабочих пространствах. В локальных агентных средах LLM может читать и записывать файлы, вызывать инструменты и повторно использовать состояние рабочего пространства между сессиями. Хотя такие возможности повышают полезность, они также открывают новую поверхность атаки для злоумышленников. Злоумышленники могут внедрить инъекцию промпта в файл или вывод инструмента. Агенты могут прочитать эту скрытую инструкцию, сохранить ее и выполнить позже. В этой парадигме многошаговой троянской атаки ни один отдельный шаг не выглядит вредоносным сам по себе, но эти шаги в совокупности могут превратить ненадежный текст в постоянное управляющее содержимое. Однако существующие механизмы защиты часто проверяют каждый шаг изолированно. В результате они могут заблокировать явное вредоносное действие, но не могут обнаружить более раннюю операцию записи, которая устанавливает бэкдор. Чтобы выявить эту угрозу, мы представляем ClawTrojan — эталонный тест, предназначенный для идентификации многошаговых троянских атак в локальных агентных средах. В симулированном рабочем пространстве в стиле OpenClaw с GPT-5.4 ClawTrojan достигает 95,5% уровня успешности атак (УУА), в то время как существующие одношаговые атаки с инъекцией промптов показывают почти нулевой УУА на той же модели. Для противодействия этой угрозе мы предлагаем DASGuard, который сканирует управляющий текст в конфиденциальных локальных файлах, отслеживает его происхождение и удаляет управляющее содержимое, не исходящее из доверенного источника. Наши результаты показывают, что DASGuard обеспечивает надежную динамическую защиту, сочетая блокировку атак во время выполнения с очищенными фиксациями в рабочем пространстве.
Видео-языковые модели (VLM) всё чаще применяются в сценариях с длинным горизонтом и потоковой передачей, однако большинство видеоэнкодеров по-прежнему полагаются на пространственно-временное самовнимание, из-за чего вычислительные затраты и задержка растут квадратично с увеличением числа кадров. Существующие методы повышения эффективности улучшают масштабируемость, но часто теряют в точности по сравнению с полным самовниманием — например, за счёт агрессивного отбрасывания кадров/токенов или грубых аппроксимаций внимания. Мы представляем StateKV — метод времени вывода, адаптирующий предварительно обученные VLM для длинных видео к линейной по времени предварительной загрузке видео за счёт переноса межкадрового контекста в рекуррентное состояние фиксированной ёмкости, основанное на важности, в паре со вторым полным покадровым кэшем, используемым для декодирования. На трёх эталонных тестах длинных видео и семи моделях, охватывающих три семейства и несколько масштабов, StateKV остаётся близок к полному самовниманию и стабильно превосходит доминирующие аппроксимации потоковой передачи на основе скользящего окна/недавности без тонкой настройки или изменений архитектуры. StateKV также снижает затраты на предварительную загрузку видео, измеряемые в FLOPs, что позволяет добиться большей точности при фиксированном вычислительном бюджете за счёт запуска более крупных моделей. Эти результаты указывают на практический шаг к масштабируемому пониманию длинных видео.
Последние достижения в области видеогенеративных моделей способствовали быстрому прогрессу в разработке управляемых моделей мира. Однако поддержание мелкозернистой пространственно-временной согласованности при рассуждениях на длительных горизонтах остаётся ключевой проблемой. В данной работе мы выходим за рамки явной 3D-памяти и грубого покадрового неявного моделирования, предлагая мелкозернистую, обучаемую и масштабируемую память для согласованной генерации миров. Сначала мы выявляем два фундаментальных ограничения наивных архитектур обучаемой памяти при экстраполяции на длительные горизонты, а именно вычислительную неэффективность и дисперсию внимания. На основе систематического анализа дисперсии внимания мы предлагаем DecMem — развязанную архитектуру памяти, которая использует разреженную глобальную память для эффективного мелкозернистого доступа к глобальной истории и закреплённую локальную память для стабильной и высококачественной экстраполяции. Обширные эксперименты показывают, что DecMem значительно превосходит современные методы. Обеспечивая точную и эффективную долговременную память, а также выдающиеся способности к экстраполяции, DecMem позволяет осуществлять управляемую генерацию длинных видео с точностью до минуты, сохраняя высокую точность и согласованность.
Модели Vision-Language-Action (VLA) позволяют роботам следовать инструкциям на естественном языке и обобщать полученные знания на разнообразные задачи, однако они остаются уязвимыми к сбоям выполнения, что снижает их надежность при реальном развертывании. Поэтому обнаружение таких сбоев во время выполнения имеет критическое значение для надежного развертывания воплощенных систем. Существующие методы обнаружения сбоев либо полагаются на дорогостоящее повторное семплирование действий или внешние модели, либо альтернативные подходы равномерно распространяют метки на уровне траекторий на каждый временной шаг, скрывая локализованные сигналы сбоев. В данной статье мы предлагаем Hide-and-Seek — framework, который формулирует обнаружение сбоев VLA как задачу слабо контролируемого обучения. Комбинируя межтраекторные и внутритраекторные контрастивные цели, Hide-and-Seek локализует действия, указывающие на сбои, и извлекает временно структурированные сигналы сбоев исключительно из супервизии на уровне траекторий, без какой-либо пошаговой аннотации. Мы оцениваем Hide-and-Seek на LIBERO, VLABench и реальной роботизированной платформе с использованием трех репрезентативных политик VLA: OpenVLA, π_0 и π_{0.5}. Наш метод достигает передовой производительности в обнаружении сбоев для множества задач, обеспечивая практический компромисс между точностью и своевременностью в рамках конформного прогнозирования, а также хорошо обобщается как на знакомые, так и на незнакомые задачи.
Недавние исследования начали оснащать политики типа "зрение-язык-действие" (VLA) явным промежуточным рассуждением. Однако в контексте воплощенного управления текстовые цепочки рассуждений (chain-of-thought) плохо применимы: нерелевантная или слабо связанная с текстом информация может мешать предсказанию действий, а авторегрессивное декодирование текста вносит слишком большую задержку для выполнения в реальном времени в замкнутом контуре. Мы представляем VISUALTHINK-VLA — фреймворк визуального промежуточного рассуждения для точных и малозадержковых политик VLA. Наша философия начальной загрузки (bootstrapping) заключается в направлении действий с помощью эффективного визуального мышления: VISUALTHINK-VLA инициализирует предсказание действий через компактный интерфейс визуальных свидетельств, который сохраняет пространственную точность, избегая накладных расходов на декодирование. Кроме того, для дальнейшего повышения производительности и эффективности VISUALTHINK-VLA использует специальный механизм селективной маршрутизации для изучения токенов визуальных свидетельств, что обеспечивает низкозадержковый вывод при сохранении высокой специализации. Мы также представляем VisualEvidence-Kit — ресурс для контроля и аудита, центральным элементом которого является VisualEvidence-Agent, создающий набор VisualEvidence-Set из 754,7 тыс. инструкций VLA для супервизии маршрутов и тестов на контрфактическую достоверность. На нескольких бенчмарках и в оценках на реальных роботах VISUALTHINK-VLA достигает наивысшего показателя успешности на большинстве бенчмарков, сокращая многосекундную задержку базовых методов с усиленным рассуждением до субсекундного диапазона. Например, на BridgeData V2 задержка на шаг снижается с 8,377 с в ECoT до 0,367 с, что обеспечивает ускорение в 22,8 раза.
Пространственное рассуждение является фундаментальной способностью для моделей зрения и языка (VLM), применяемых в реальных средах. Однако визуальные наблюдения по своей сути являются ограниченными представлениями трёхмерного мира: окклюзия может делать объекты невидимыми, а перспектива — искажать геометрические свойства. Несмотря на это, существующие бенчмарки пространственного рассуждения обычно предполагают, что наблюдения достаточны и надёжны, сосредотачиваясь на том, дают ли модели правильные ответы, а не на том, осознают ли они, когда на вопрос невозможно ответить и какие дополнительные наблюдения потребуются. В данной работе мы оспариваем это предположение, создавая контролируемую оценочную среду SpatialUncertain и вводя два типа проблем с наблюдениями: (1) окклюзию, которая скрывает целевую информацию, и (2) перспективную неоднозначность, порождающую вводящие в заблуждение визуальные сигналы. Для каждой конфигурации мы разрабатываем пространственные вопросы, на которые можно ответить при чистых наблюдениях, но которые требуют воздержания от ответа при введённых проблемах. Далее мы оцениваем, могут ли модели определить, какие дополнительные точки обзора разрешили бы перспективную неоднозначность. Наши результаты на разнообразном наборе передовых открытых и закрытых VLM выявляют два последовательных типа сбоев. Во-первых, модели склонны к излишне уверенным ответам, пытаясь решить задачи пространственного рассуждения даже при неполных или вводящих в заблуждение визуальных данных, со средней точностью около 30% в условиях окклюзии и ниже 10% в условиях перспективной неоднозначности. Во-вторых, даже при наличии дополнительных видов некоторые модели работают на уровне случайного угадывания при определении того, какой из них предоставит надёжные доказательства. В совокупности наши результаты призывают выйти за рамки правильности ответов и перейти к оценке того, знают ли модели, когда следует воздержаться и как искать надёжные доказательства.
Видеодополнение генерирует правдоподобное визуальное содержимое за пределами исходного пространственного охвата видео, играя ключевую роль в адаптации видео к различным форматам отображения. Для поддержки таких сценариев использования оно должно обеспечивать большую пространственную экстраполяцию на длинных последовательностях. Однако большинство существующих методов решают лишь одну из этих задач или не имеют явных механизмов обеспечения глобальной пространственно-временной согласованности, что приводит к заметным ограничениям. В этой статье мы предлагаем HL-OutPaint — фреймворк для высокоразрешающего видеодополнения длинных последовательностей. Наш подход следует стратегии от грубого к точному с двухэтапным конвейером. Сначала мы строим глобальное грубое направление (Global Coarse Guidance, GCG) — представление с низким разрешением, которое фиксирует глобальную структуру и доминирующее движение по всему видео. В отличие от наивного понижения разрешения, GCG строится с помощью нового механизма глобально-локального обмена кадрами, который объединяет разреженные глобальные ключевые кадры с локальными временными окнами и обменивается информацией во время дискретизации. Это позволяет GCG кодировать как долгосрочную структурную согласованность, так и краткосрочную временную динамику в едином представлении. Руководствуясь этим представлением, HL-OutPaint затем выполняет высокоразрешающее дополнение для генерации пространственно детализированного и временно согласованного содержимого. Разделяя моделирование глобальной структуры и тонкую детализацию синтеза, наш фреймворк обеспечивает стабильную, когерентную генерацию для большого пространственного расширения и длинных видеопоследовательностей. Обширные эксперименты показывают, что HL-OutPaint превосходит существующие методы в сложных сценариях, включающих широкую пространственную экстраполяцию и длинные видеопоследовательности.
Мы представляем DEMON — движок диффузии в реальном времени, который превращает процесс шумоподавления в живой музыкальный инструмент: панель управления, одновременно широкую (множество параметров, формируемых покадрово по всему выходу) и отзывчивую (каждый элемент управления вступает в силу так быстро, как позволяет его место в цикле шумоподавления). Построенный на основе ACE-Step 1.5 и архитектуры кольцевого буфера StreamDiffusion с ускорением TensorRT, он обеспечивает до 12,3 завершений декодирования в секунду для 60-секундной музыки на одном потребительском GPU (RTX 5090) или 11,3 генерации в секунду при нашей рабочей глубине кольца, равной 4. При таких скоростях параметры шумоподавления становятся пригодными для живого управления, но кольцевой буфер распространяет изменения по запросу только со скоростью своего истощения, что составляет нижнюю границу в S шагов шумоподавления. Мы предлагаем четыре механизма. (1) Поканальное гетерогенное планирование шумоподавления: каждый слот кольцевого буфера имеет собственное расписание временных шагов, поэтому перемещаемый ползунок шумоподавления отслеживается без очистки очереди в обработке, тогда как вышестоящая конструкция глобального расписания должна перестраивать и отбрасывать ее. (2) Общее изменяемое состояние на каждом шаге, обеспечивающее мгновенный эффект на следующем тике для любого параметра, учитываемого на каждом шаге решателя, в обход истощения кольцевого буфера. (3) Покадровое смешивание источников: управление на этапе выборки в стандартном шаге повторного шума SDE, предоставляющее покадровую ось силы преобразования, дополняющую скалярное планирование шумоподавления. (4) Оконное декодирование VAE, использующее анализ рецептивного поля для ускорения декодирования в 8,0 раза. Вместе они разделяют параметры потоковой диффузии на четыре класса распространения по латентности начала и сходимости.
Люди легко определяют, какой цвет соответствует какой форме в сценах с несколькими объектами — способность, известная как связывание концептов (concept binding). Визуально-языковые модели эмбеддингов, такие как CLIP, испытывают трудности со связыванием: они распознают отдельные концепты, но не могут представить, какие концепты образуют какие объекты. Хотя CLIP ведет себя как модель «мешка концептов» (bag-of-concepts) в кроссмодальном поиске, информация об объектах может быть восстановлена из его эмбеддингов изображений и текстов по отдельности. Мы изучаем это противоречие с помощью функции связывания, которая отображает концепты в эмбеддинги сцены. Мы обнаружили, что эмбеддинги сцены аддитивно разлагаются на представления объектов, что объясняет, почему одномодальные зонды могут восстанавливать информацию об объектах. Однако функция связывания CLIP имеет высокую сложность, что, вероятно, мешает кодировщикам изображений и текстов изучить общий механизм связывания, который обобщается на невиданные комбинации концептов. Затем мы задаемся вопросом, является ли это ограничение фундаментальным. Мы показываем, что нет. В контролируемых моделях трансформеров, обученных с нуля, обобщение связывания возникает при достаточном охвате данных. Эти модели изучают функции связывания низкой сложности, характеризующиеся мультипликативными взаимодействиями между концептами, что обеспечивает систематическое обобщение. Код доступен публично по адресу https://github.com/oshapio/binding-concepts-complexity.
Самообучаемый синтез новых видов (NVS) по-прежнему сложно масштабировать, несмотря на обилие видеоданных, в значительной степени из-за нестабильности обучения на реалистичных видео и трудно предсказуемого поведения масштабирования многокомпонентных систем. Мы представляем RayDer — унифицированный трансформер прямого распространения, который объединяет оценку камеры, реконструкцию сцены и рендеринг в одном бэкбоне, превращая самообучаемый NVS в корректно поставленную задачу масштабирования одной модели. Минимальное динамическое состояние, рассматриваемое как мешающий фактор, поглощает изменяющееся во времени содержимое и обеспечивает стабильное обучение на неограниченных реальных видео. Важно отметить, что RayDer сохраняет NVS статической сцены в качестве целевой задачи: динамическое содержимое используется исключительно как масштабируемое обучение, а не восстанавливается, как в NVS динамической сцены (4D). При различных размерах модели и порядках величины данных RayDer демонстрирует четкое степенное масштабирование с данными и вычислительными затратами и превосходит смеси данных статических сцен. На большом количестве эталонов RayDer достигает высокой производительности в режиме zero-shot для открытого множества, конкурируя с передовыми подходами с учителем. Страница проекта: https://compvis.github.io/rayder
Недавние достижения позволили существенно улучшить интерактивную генерацию видео в реальном времени в рамках авторегрессионного режима. Однако большинство существующих методов малопаговой авторегрессионной генерации видео, часто дистиллированных из соответствующего многошагового учителя, по умолчанию используют конфигурацию с 4 шагами дискретизации, что по-прежнему приводит к значительной задержке при развертывании и вызывает серьезное ухудшение качества при дальнейшем сокращении числа шагов дискретизации, особенно в однопаговом режиме. Методы согласованной дистилляции на основе траекторий нередко создают видео со слабой динамикой, в то время как подходы на основе DMD, такие как Self-Forcing, склонны давать размытые кадры. Для решения этой проблемы мы предлагаем One-Forcing — простой, но эффективный подход, который дополняет целевую функцию DMD вспомогательной GAN-потерей для высококачественной и эффективной однопаговой генерации видео. Эксперименты на VBench показывают, что One-Forcing достигает общего балла 83.76, устанавливая новый уровень производительности среди однопаговых методов каузальной генерации видео и оставаясь конкурентоспособным по сравнению с сильными многошаговыми подходами. Мы также демонстрируем, что однопаговую покадровую авторегрессионную генерацию можно стабильно реализовать всего за одну треть затрат на обучение поблочной модели — в условиях, которые предыдущие методы не смогли успешно реализовать.
Навыки, то есть инструкции по структурированным рабочим процессам, адаптированные для больших языковых моделей (БЯМ), становятся всё более важным механизмом повышения производительности агентов в реальных прикладных задачах. Однако по мере быстрого расширения экосистемы навыков с открытым исходным кодом остаётся неясным, как различные модели и агентные фреймворки взаимодействуют с навыками, как оценивать их качество и как пользователям следует выбирать навыки с учётом практических компромиссов между стоимостью и производительностью. В данной статье мы представляем OpenSkillEval — автоматический фреймворк для оценки как систем агентов, дополненных навыками, так и самих навыков. В отличие от статических эталонных тестов, OpenSkillEval автоматически формирует реалистичные экземпляры задач на основе динамически обновляемых реальных артефактов в пяти категориях прикладных приложений: создание презентаций, фронтенд-дизайн, генерация постеров, визуализация данных и формирование отчётов. Кроме того, фреймворк собирает и систематизирует навыки, предоставленные сообществом, для контролируемого сравнения в единых условиях задач. Используя более 600 динамически генерируемых экземпляров задач и 30 навыков с открытым исходным кодом, мы проводим систематическую оценку современных моделей и агентных фреймворков. Наши результаты показывают, что наличие навыков не гарантирует их эффективного использования; что польза от дополнения навыками сильно зависит как от базовой модели, так и от агентного фреймворка; и что многие широко распространённые навыки не демонстрируют стабильного превосходства над базовыми агентами без навыков. Эти выводы подчёркивают необходимость динамической оценки, привязанной к конкретным задачам, и дают практические рекомендации по разработке, выбору и развёртыванию навыков для агентов на основе БЯМ. Дополнительные примеры и ресурсы для эталонного тестирования доступны на веб-сайте проекта: https://yingjiahao14.github.io/OpenSkillEval-Web/.
Мониторинг автономных агентов на основе языковых моделей в настоящее время в основном опирается на поверхностное поведение. Но что происходит, когда популяции агентов изобретают новые языки с целью избежать человеческого надзора. Здесь мы изучаем возникающие языки на Moltbook. Для этого мы используем набор данных Moltbook Files и применяем двухэтапный подход, состоящий из эвристики на основе правил (около 6000 совпадений), за которой следует zero-shot классификация (518 сохранено). Полученные категории включают эффективность токенов (166), новые естественные языки (106) и уклонение от надзора (59). Мы проводим как количественный, так и качественный анализ. Наши результаты показывают, что посты, предлагающие новые языки для избежания надзора, оцениваются DeepSeek-3.2 как менее согласованные, чем другие категории, и что все языки могут быть изучены другими языковыми моделями в контексте (in-context) просто из описания языка. Более того, ручное изучение показательных примеров выявляет удивительно сложные стеганографические протоколы, такие как встраивание скрытых сообщений в естественный язык. Хотя мы не можем быть уверены в степени автономности при создании этих языков, наши результаты дополняют доказательства того, что мониторинг поверхностного поведения может вскоре стать недостаточным для сохранения контроля над популяциями агентов.
Построение надежных моделей вознаграждения (RM) для выравнивания языковых моделей ограничено стоимостью и сложностью получения разнообразных и надежных данных о предпочтениях от аннотаторов-людей или моделей-оценщиков. Ситуация значительно ухудшается по мере того, как эволюционирующая политика выходит за пределы статического обучения RM. В связи с этим мы предлагаем SAVE (Self-supervised reward model improvement via Value-Anchored On-policy feedback) — фреймворк, который оценивает ответы текущей политики (on-policy) в качестве обратной связи, используя функцию ценности для обучения RM на данных текущей политики. SAVE естественным образом преобразует оцененные по вознаграждению ответы текущей политики в обучающий сигнал с помощью специфической для запроса головы ценности, выступающей в роли адаптивного якоря. Он вычисляет преимущества RM и фильтрует неоднозначные примеры для обновления RM с использованием контрастивной целевой функции. Эффективность SAVE для улучшения обучения RM убедительно подтверждена строгими эмпирическими оценками на шести различных бенчмарках. Предложенный метод достигает превосходных результатов на всех наборах данных, демонстрируя при этом стабильное улучшение для трех алгоритмов RL (GRPO, RLOO, GSPO) и различных базовых политик.
Автономные исследовательские агенты на базе ИИ направлены на ускорение научных открытий путем автоматизации исследовательского конвейера — от генерации гипотез до рецензирования. Однако существующие бенчмарки редко проверяют фундаментальное узкое место: способность больших языковых моделей оценивать методологическую состоятельность исследовательской идеи до затрат времени и вычислительных ресурсов. Мы представляем SoundnessBench — курируемый набор данных из 1099 предложений по машинному обучению, реконструированных на основе материалов конференции ICLR, размеченных с учетом оценок рецензентов за методологическую обоснованность и выверенных по исходным статьям. SoundnessBench следует интерпретировать как бенчмарк для оценки воспроизводимой обоснованности на этапе предложения, а не для точного предсказания результатов полного рецензирования статей. На 12 передовых LLM мы обнаруживаем повсеместную склонность к оптимизму: при стандартной формулировке запроса модели часто оценивают предложения с низкой обоснованностью как состоятельные, тогда как агрессивная формулировка в основном смещает ошибки от ложноположительных к ложноотрицательным. Дополнительные контрольные проверки на загрязнение публичными корпусами, идентифицирующие статью фразы, поверхностные признаки и качество человеческой проверки показывают, что данное поведение не объясняется единичным конфaундером. Наши результаты указывают на то, что современные LLM пока не могут надежно выступать в роли самостоятельных оценщиков первого уровня для проверки научной строгости.
Обучение с подкреплением (RL) может использоваться для улучшения политики (шумоподавителя) диффузионных больших языковых моделей (dLLM), однако его применение затрудняется невычислимостью правдоподобия политики. Доминирующее и эффективное семейство методов заменяет правдоподобие в стандартном RL на его нижнюю границу доказательства (ELBO), оцениваемую по случайно замаскированным последовательностям. Несмотря на хорошее согласование с предобучением, такие подходы вносят смещение из-за несоответствия обучения и вывода, используя ELBO в качестве суррогата правдоподобия, что может ухудшать производительность. В данной работе мы предлагаем метод управляемой самодистилляции шумоподавителя (GDSD) для прямой дистилляции шумоподавителя dLLM из самоучителя, управляемого преимуществом, который выводится из оптимума в замкнутой форме для RL с регуляризацией обратного KL-расхождения. GDSD согласует логиты шумоподавителя dLLM с логитами учителя с помощью целевой функции без нормализации, что сводит RL к самодистилляции без правдоподобия и, таким образом, обходит смещения, вызванные несоответствием обучения и вывода. Недавние методы на основе ELBO оказываются частными случаями применения различных дивергенций дистилляции, но с диагностируемыми патологиями, которых избегает GDSD. На бенчмарках планирования, математики и программирования с использованием моделей LLaDA-8B и Dream-7B GDSD стабильно превосходит предыдущие передовые методы на основе ELBO, демонстрируя более устойчивую динамику вознаграждения при обучении и достигая улучшения точности на тестах до +19,6%. Эти результаты указывают на то, что прямая самодистилляция шумоподавителя, без опоры на суррогат правдоподобия ELBO, может обеспечить более стабильную и эффективную процедуру RL для dLLM. Код доступен по адресу https://github.com/GaryBall/GDSD.
Данная статья исследует следующий крупный узкий участок в агентном ИИ как масштабирование системы, а не только модели: проектирование аудируемых, постоянных, модульных и верифицируемых архитектур вокруг фундаментальных моделей. Этот сдвиг мы называем масштабированием обвязки: рассмотрение структурированного уровня выполнения вокруг фундаментальной модели как объекта первого класса при проектировании, оценке и оптимизации. Хотя современные большие языковые модели позволяют агентам использовать инструменты, извлекать информацию, поддерживать память и выполнять долгосрочные рабочие процессы, оценка остается в значительной степени модель-центричной, часто сводя агентов к успешному выполнению конечной задачи, рассматривая память, извлечение, использование инструментов, оркестрацию, верификацию и управление как второстепенные детали реализации. Такая формулировка становится все более неадекватной, поскольку производительность агента возникает из взаимодействия между фундаментальной моделью, подложкой памяти, конструктором контекста, уровнем маршрутизации навыков, циклом оркестрации и уровнем верификации и управления. В совокупности эти компоненты образуют обвязку агента, которая преобразует возможности модели в долгосрочное поведение агента. Мы изучаем масштабирование обвязки через три основных узких места: управление контекстом, надежная память и динамическая маршрутизация навыков, а также механизмы оркестрации и управления, которые координируют и ограничивают их. Далее мы намечаем исследовательскую программу для бенчмарков на уровне обвязки, которые выходят за рамки одноразового успеха задачи для измерения качества траектории, гигиены памяти, эффективности контекста, точности коммуникации, стоимости верификации и безопасной эволюции с течением времени. Чтобы сделать обсуждение конкретным, мы разрабатываем CheetahClaws: https://github.com/SafeRL-Lab/cheetahclaws, эталонную обвязку на Python, и сравниваем ее с Claude Code и OpenClaw. Наше основное утверждение заключается в том, что будущий прогресс в агентном ИИ будет в равной степени зависеть как от проектирования системы, так и от более сильных фундаментальных моделей.
Стандарты сжатия мультимедиа достигли плато с точки зрения компромисса между скоростью, искажениями и вычислительной сложностью, что ограничивает возможность переноса дорогостоящего восприятия на основе ИИ в облако в таких приложениях, как робототехника, носимые устройства и дистанционное зондирование. Кодеки на основе глубоких нейронных сетей (DNN) повышают эффективность сжатия, но ценой того, что они не могут легко адаптироваться к значительным изменениям доступного битрейта, а кодирование в реальном времени требует дорогих и энергоемких GPU, что исключает их использование на недорогих или ресурсно-ограниченных платформах. Чтобы преодолеть эти ограничения, мы предлагаем новую структуру автоэнкодера (FRAPPE), которая использует полный входной сигнал для прогнозирования остаточного выхода с помощью энкодера проекционного преследования. Цель кодирования FRAPPE естественным образом сортирует скрытые каналы по важности, что позволяет осуществлять кодирование с переменной скоростью без дополнительных затрат. В отличие от обучаемых кодеков на основе RNN, чей энкодер использует остаток предыдущей реконструкции, или кодеков стиля RVQ, чьи кодовые книги должны применяться последовательно, путь анализа FRAPPE представляет собой тривиально параллельный направленный ациклический граф (DAG) независимых проекций входных данных. Используя FRAPPE, мы создаем кодек RGB-изображений с переменной скоростью (FRAPPE-Image) и оцениваем его компромисс между скоростью, искажениями и сложностью по сравнению со стандартными кодеками изображений. При высоких степенях сжатия (примерно 0.1 бит на пиксель) FRAPPE-Image обеспечивает более высокое перцептивное качество, чем AVIF, при кодировании в 47 раз быстрее, что позволяет выполнять кодирование в реальном времени с разрешением 1080p и частотой 30 кадров в секунду, используя только CPU. Наш код и предварительно обученные модели доступны по адресу: https://github.com/UT-SysML/FRAPPE.
В то время как визуально обоснованное цепочка рассуждений (Visually Grounded Chain-of-Thought, CoT) зарекомендовала себя как перспективная парадигма для улучшения тонкозернистого восприятия в мультимодальных больших языковых моделях (MLLMs), ее эффективность на этапе вывода остается малоизученной. В данной работе мы эмпирически обнаружили, что требование явных ограничивающих рамок объектов в визуально обоснованном CoT во время вывода часто ухудшает производительность по сравнению со стандартным текстовым CoT, который выполняет рассуждения без явной визуальной привязки. Мы выдвигаем гипотезу, что способность к визуальной локализации может быть интернализована в текстовое CoT, а обязательное явное обоснование создает избыточные помехи для основной цели модели — предсказания ответа. Для решения этой проблемы мы предлагаем iVGR (Internalizing Visually Grounded Reasoning) — новую структуру обучения с подкреплением, которая переносит способности локализации в процесс текстовых рассуждений. Мы используем стратегию двухпоточного обучения, где текстовый поток согласуется с высококачественным визуально обоснованным потоком с помощью предложенного вознаграждения за согласованность, что позволяет модели выполнять точную локализацию без явного обоснования во время вывода. Обширные эксперименты демонстрируют, что наш метод значительно превосходит существующие базовые подходы на тонкозернистых бенчмарках, сохраняя при этом гибкость для поддержки рабочих процессов вывода с использованием инструментов.
Соединительные унифицированные видеомодели продемонстрировали высокую эффективность в генерации видео по текстовым инструкциям, однако интеграция крупномасштабного генератора высокой точности в единый процесс обучения требует значительных вычислительных ресурсов, что ограничивает достижимое визуальное качество. В связи с этим мы предлагаем Lumos-Nexus — эффективную с точки зрения обучения унифицированную систему генерации видео, которая обеспечивает развитие мощных способностей к рассуждению и генерации при одновременном значительном повышении визуальной точности. Lumos-Nexus использует двухэтапную архитектуру: 1) На этапе обучения только легковесный генератор согласуется с блоком понимания, обучаясь воспринимать семантическое управление на основе рассуждения. 2) На этапе вывода мы внедряем Unified Progressive Frequency Bridging (UPFB) для постепенной передачи генерации мощному предварительно обученному генератору в общем латентном пространстве, что обеспечивает уточнение от грубого к точному и создание высокоточных видео без ущерба для качества рассуждения. Для устранения пробела в бенчмарках генерации видео на основе рассуждения мы представляем VR-Bench, который оценивает способность модели преобразовывать выведенное намерение в связный и семантически соответствующий видеоконтент. Обширные эксперименты показывают, что Lumos-Nexus достигает значительного улучшения визуальной реалистичности и временной когерентности на VBench, одновременно демонстрируя высокую производительность на основе рассуждения на VR-Bench. Код и модели доступны по адресу https://jiazheng-xing.github.io/nexus-lumos-home/.
Крупные языковые модели всё чаще развёртываются в многопоточных интерактивных средах, где пользователи или окружения могут итеративно предоставлять лёгкую обратную связь. К сожалению, оптимизация такого поведения на практике представляет собой серьёзную дилемму: онлайн-обучение с подкреплением эффективно справляется с многопоточными динамиками, но является непомерно затратным из-за необходимости генерировать полные траектории коррекции на каждом шаге обновления, тогда как офлайн-контролируемая тонкая настройка (SFT) эффективна, но страдает от смещения распределения и коллапса поведения. Для решения этой задачи мы предлагаем DRIFT (Decoupled Rollouts and Importance-Weighted Fine-Tuning) — фреймворк, который реализует теоретическое понимание того, что KL-регуляризованная цель обучения с подкреплением эквивалентна взвешенному по важности контролируемому обучению. DRIFT разделяет генерацию траекторий и оптимизацию, отбирая офлайн-взаимодействия из фиксированной эталонной политики, вычисляя веса важности на основе возврата и оптимизируя политику с помощью взвешенной SFT на полученном наборе данных. Эмпирически мы демонстрируем, что DRIFT соответствует или превосходит производительность базовых методов многопоточного обучения с подкреплением, сохраняя при этом эффективность обучения и простоту стандартной контролируемой тонкой настройки. Код доступен по адресу: https://github.com/2020-qqtcg/DRIFT.
Оценка машинного разучивания структурно смещена: вопросы типа «Почему» (Why-type), исследующие причинно-следственные и реляционные знания, составляют менее 0,06% в CounterFact, 0,6% в ZSRE и менее 1,3% в TOFU, MUSE и WMDP-Cyber. Такая почти нулевая представленность означает, что методы, не справляющиеся с причинно-следственными знаниями, могут получать высокие агрегированные оценки, причем этот сбой остаётся необнаружимым без сбалансированной оценки. Мы представляем 5WBENCH — сбалансированный эталон из 5 000 примеров, содержащий по 1 000 примеров для каждой из 5W-категорий (Кто, Что, Когда, Где, Почему), что впервые позволяет количественно оценить неудачи в разучивании причинно-следственных знаний. Используя 5WBENCH, мы демонстрируем, что ни один существующий базовый метод не достигает одновременно высокой степени забывания и высокой степени сохранения на вопросах типа «Почему»: агрессивное забывание ухудшает сохранённые знания, тогда как консервативные методы не в состоянии забыть причинно-следственные факты. Трудность вопросов типа «Почему» обусловлена многошаговыми цепочками рассуждений (44% записей категории «Почему» против ≤2% для других) и размытием градиента на интервалах ответов длиной 40,1 токена. Мы представляем MAAT (Многофазное целенаправленное разучивание с учётом адаптеров) — трёхфазную структуру, работающую с весами LoRA-адаптеров и объединяющую градиентно-проекционное восхождение, SVD-сокращение ранговых размерностей, отрицание векторов задач и гибридное KL-восстановление сохранности скрытых состояний. MAAT — первый метод, одновременно обеспечивающий высокое забывание и высокое сохранение на причинно-следственных знаниях типа «Почему», достигая новой рабочей точки на границе Парето между забыванием и сохранением. Мы публикуем наш код в открытом доступе.
Подсчет объектов остается фрагментированным по предметно-ориентированным наборам данных и постановкам задач, несмотря на стремительный прогресс в универсальных моделях зрения. Существующие модели подсчета часто заточены под такие сценарии, как толпы, транспортные средства, клетки, сельскохозяйственные культуры или объекты дистанционного зондирования, и поэтому с трудом обобщаются на разные категории, визуальные домены, масштабы объектов и распределения плотности. В данной работе мы исследуем подсчет объектов с текстовым управлением в междоменном контексте, где модель принимает на вход изображение и запрос на естественном языке и возвращает привязанный к экземплярам набор целевых точек, мощность которого дает количество. Такая формулировка объединяет подсчет, обусловленный категорией, с интерпретируемой пространственной локализацией. Для поддержки этой постановки мы создали CLOC — междоменный крупномасштабный набор данных для подсчета объектов, который реорганизует разнородные публичные источники данных в единый бенчмарк. CLOC охватывает шесть визуальных доменов: общая сцена, дистанционное зондирование, гистопатология, клеточная микроскопия, сельское хозяйство и микробиология, и содержит около 220 тысяч изображений, 619 категорий и 15 миллионов экземпляров объектов. На основе CLOC мы предлагаем Count Anything — универсальную модель для подсчета объектов с текстовым управлением. В отличие от методов, основанных на картах плотности, которые доминируют среди моделей подсчета, Count Anything использует дискретные точки экземпляров и выполняет перечисление экземпляров с двойной гранулярностью. Разреженный счетчик на уровне областей предоставляет объектные якоря для крупных и разреженных целей, тогда как плотный счетчик на уровне пикселей обрабатывает мелкие, скученные и слабо ограниченные цели посредством предсказания плотных точек. Стратегия обучения с фокусом на точки позволяет обучаться на гетерогенных аннотациях, а комплементарное слияние подсчетов объединяет оба счетчика без параметров. Обширные эксперименты показывают, что Count Anything достигает высокой точности и многодоменного обобщения, превосходя существующие методы подсчета в открытом мире. Код доступен по адресу: https://github.com/Mengqi-Lei/count-anything.
Проектирование транзитной сети требует множества последовательных решений о продлении маршрутов, однако их качество часто становится очевидным только после сборки полной сети. Эта проблема отсроченной обратной связи лежит в основе задачи проектирования транзитной маршрутной сети (TRNDP), где взаимодействия маршрутов могут быть обманчивыми: продление, которое кажется полезным на локальном уровне, может создать узкие места пересадок, привести к избыточному перекрытию или снизить общую пропускную способность. Для управления построением маршрутов в условиях отсроченной обратной связи от симулятора мы представляем AlphaTransit — поисковую структуру планирования для проектирования городских автобусных сетей. AlphaTransit объединяет поиск по дереву Монте-Карло (MCTS) с нейронной сетью политики и ценности: политика предлагает продления маршрутов, ценность оценивает последующее качество проектирования, а поиск использует эти прогнозы для уточнения каждого решения. Это обеспечивает упреждающее принятие решений во время построения маршрутов без выполнения симуляционных прогонов внутри дерева поиска. Мы оцениваем AlphaTransit на новом эталонном тесте TRNDP для Блумингтона с реалистичной дорожной топологией и спросом, полученным из данных переписи, в условиях смешанного и полного транзитного спроса. В сети Блумингтона AlphaTransit достигает наивысшего уровня обслуживания в обоих сценариях спроса, достигая 54,6% и 82,1% соответственно. По сравнению с обучением с подкреплением без поиска, это соответствует увеличению уровня обслуживания на 9,9% и 11,4%; по сравнению с MCTS без обученного управления — на 2,5% и 11,2%. Эти результаты позволяют предположить, что объединение обученного управления с MCTS более эффективно, чем использование любого из подходов по отдельности для проектирования транзитных сетей. Наш код и данные общедоступны по адресу https://github.com/poudel-bibek/AlphaTransit.
Современные методы прямой трехмерной реконструкции, основанные на прямом проходе (feedforward), успешно предсказывают карты точек и оценивают глобальную трехмерную геометрию. Однако их прогнозы по-прежнему содержат неточности локальной геометрии поверхности, которые хорошо заметны качественно, но лишь слабо отражаются в общепринятых метриках. Чтобы сделать эти ошибки более явными при оценке, мы вводим метрику нормалей карты точек, которая оценивает локальную ориентацию поверхности, выводимую из соседних трехмерных предсказаний. Для снижения таких ошибок мы предлагаем два взаимодополняющих компонента: функцию потерь согласования градиентов точек, контролирующую нормализованные по глубине трехмерные конечные разности, и декодер внимания окрестности (Neighborhood Attention Decoder, NAD), который постепенно увеличивает разрешение признаков и использует механизм внимания окрестности для смешивания локальных признаков. На восьми бенчмарках монокулярной геометрии в режиме zero-shot наша модель SurGe достигает наилучшего среднего ранга по глобальной метрике AbsRel для карт точек и стабильно улучшает показатели локальных карт точек и их нормалей.
Появление крупных моделей зрения и языка (Large Vision-Language Models, LVLMs) значительно продвинуло возможности понимания видео. Однако существующие бенчмарки преимущественно ориентированы на задачи общего уровня, такие как сегментация действий, классификация, формирование подписей и поиск. Кроме того, эти тесты зачастую опираются на сущности, которые легко идентифицировать вербально (например, бытовые предметы, животные, люди и т.д.), что ограничивает их применимость в сложных видео-сценариях реального мира. Между тем, многие приложения, такие как сборка мебели, приготовление пищи и т.п., требуют пошагового детализированного пространственно-временного понимания видео, которое недостаточно оценивается в современных бенчмарках. Для восполнения этого пробела мы представляем Flat-Pack Bench — новый бенчмарк, ориентированный на задачи сборки мебели. Наш тест оценивает LVLMs по нюансированным задачам, включая временное упорядочивание действий по сборке, временную локализацию состояния сборки, понимание соединения деталей и их отслеживание, с использованием вопросов с множественным выбором, сопровождаемых визуальными подсказками, выделяющими соответствующие части в качестве референса для детализированных вопросов. Наши эксперименты показывают, что современные LVLMs испытывают значительные трудности с детализированным пространственно-временным рассуждением, что подчёркивает их ограничения в эффективном использовании временной информации из видео, ограниченные способности к отслеживанию и пониманию пространственных взаимодействий, таких как физический контакт.
Диффузионные языковые модели декодируют текст путем итеративного устранения шума из замаскированных последовательностей токенов, что делает выбор позиций для декодирования ключевым решением на этапе инференса. Большинство стратегий декодирования без обучения используют уверенность модели для выбора позиций, предполагая, что позиции с высокой уверенностью готовы к декодированию. В данной работе мы пересматриваем это предположение, изучая случаи, когда уверенность вводит в заблуждение полностью неавторегрессивное (полностью не-АР) декодирование. Токены EOT могут получать высокую уверенность и вызывать неполную генерацию; вставка суффиксного якоря может смягчить эту проблему, но приводит к локальной избыточной уверенности рядом с якорем, из-за чего смежные с якорем токены декодируются слишком рано. Для решения этих проблем мы предлагаем модуляцию уверенности с якорным суффиксом (Suffix-Anchored Confidence Modulation) — простой метод без обучения, который вставляет короткий суффиксный якорь для стимулирования завершения ответа и модулирует уверенность рядом с якорем в зависимости от прогресса декодирования. Это сохраняет преимущество суффиксного якорения в завершении ответа, одновременно уменьшая преждевременное декодирование смежных с якорем токенов. На бенчмарках текстового рассуждения, визуально-языкового рассуждения и генерации кода наш метод последовательно улучшает основанное на уверенности полностью не-АР декодирование, превосходит явное подавление EOT и сохраняет преимущество параллельного декодирования, характерное для полностью не-АР генерации.
В рамках стандартных графических предположений граница Маркова для целевой переменной представляет собой минимальный набор признаков, который делает все остальные признаки избыточными. После наблюдения этой границы целевая переменная становится условно независимой от остальной части таблицы. Это делает границу Маркова привлекательным объектом для табличного прогнозирования, поскольку она указывает именно те столбцы, которые необходимы модели. Тем не менее, современные регрессоры по-прежнему обучаются на полном наборе признаков. Мы задаемся вопросом, действительно ли граница Маркова полезна для прогнозирования на SCM3K — синтетическом тесте SCM, содержащем 3450 задач с количеством признаков от 40 до 1000 и шестью семействами SCM, при оценке с помощью шести регрессоров. Ответ оказывается более тонким, чем следует из теории. Ограничение регрессора эталонной границей часто существенно улучшает прогнозирование, и это улучшение возрастает по мере того, как пространство признаков становится больше и разреженнее. Однако естественный конвейер, состоящий в восстановлении границы с помощью выявления причинно-следственных связей и обучении на восстановленной маске, не дает ожидаемых результатов. Существующие оценщики исчерпывают вычислительный бюджет, не достигая режима, в котором граница наиболее полезна, и даже там, где они работают, они редко превосходят полный набор признаков. Мы связываем это с тремя причинами. Выявление оптимизирует структурное восстановление, а не прогнозирование. Ложноотрицательные и ложноположительные результаты несут резко асимметричную прогностическую стоимость. Точная граница является лишь одним из множества наборов признаков, превосходящих все признаки. Затем мы выводим следствия этих фактов для ориентированного на прогнозирование отбора признаков и для табличных моделей, которые обучаются использовать причинно-следственную структуру.
Модели сегментации клеточных экземпляров, обученные на специфических для клеток наборах данных, демонстрируют значительное падение производительности на клеточных типах, не входящих в распределение обучающей выборки, в то время как интерактивные фундаментальные модели преодолевают это ограничение с помощью поточечного подсказывания, однако его стоимость оказывается непомерно высокой для гистопатологических изображений, содержащих сотни и тысячи плотно упакованных экземпляров. Мы представляем групповое подсказывание (Group Prompting) — новую парадигму, которая переводит интерактивную сегментацию от поточечной сложности O(N) к сложности по типам O(T), где одного щелчка на тип клетки достаточно для сегментации всех экземпляров этого типа. Ключевое наблюдение заключается в том, что замороженный кодировщик изображений модели Segment Anything (SAM) уже группирует клетки одного типа в своем пространстве признаков до того, как будет дана какая-либо подсказка. Используя это свойство, мы предлагаем цепочку подсказок (Chain-of-Prompts, CoP) — фреймворк без обучения, который рекурсивно расширяет один пользовательский щелчок путем (1) выявления надежных местоположений того же типа с помощью непараметрического стробирования многоуровневых признаков кодировщика и (2) выбора наиболее пространственно удаленной надежной точки в качестве следующей подсказки для максимизации покрытия. На трех эталонных наборах данных с аннотациями типов клеток CoP с одним щелчком на тип сохраняет более 90% производительности поточечного подхода и превосходит методы полного обучения без какого-либо дополнительного обучения. На четырех эталонных наборах данных с морфологической однородностью одного щелчка достаточно для сохранения более 99% производительности. Страница проекта: https://shjo-april.github.io/Chain-of-Prompts/
Интерактивные видеомировые модели генерируют видео фрагментами в ответ на управляемые пользователем движения камеры, что открывает такие приложения, как симуляция игр в реальном времени, навигация в виртуальных сценах и обучение воплощенного ИИ. Однако масштабирование до длинных интерактивных траекторий становится чрезвычайно затратным из-за растущей контекстной памяти, квадратичной сложности внимания и повторяющихся шагов шумоподавления. Мы представляем Light Interaction — фреймворк для ускорения инференса интерактивных видеомировых моделей без дополнительного обучения. Наше ключевое наблюдение состоит в том, что взаимодействие естественным образом допускает адаптивные вычисления, зависящие от траектории: извлеченная пространственная память может быть отброшена при исследовании новых областей, временной контекст может быть скорректирован в соответствии с локальной латентной динамикой, а выходы модели на ранних шагах могут быть повторно использованы, когда камера возвращается в знакомые области. Основываясь на этом наблюдении, Light Interaction объединяет адаптивное управление контекстом, ускорение с помощью кэширования шумоподавления и аппаратно-программное совместное проектирование трехмерного блочно-разреженного внимания с объединенными ядрами Triton. В оценке на HY-WorldPlay и Matrix-Game-3.0 Light Interaction достигает ускорения до 2.59x без дообучения модели, сохраняя при этом конкурентоспособное качество изображения.
Поиск составных изображений дистанционного зондирования (RSCIR) позволяет осуществлять поиск в больших архивах спутниковых снимков с помощью составных запросов, сочетающих эталонное изображение с текстовым модификатором. Хотя RSCIR обеспечивает гибкий интерфейс для выражения целенаправленного намерения поиска, переносимость современных методов композиции на данные наблюдения Земли (ДЗЗ) и их актуальность для операционных рабочих процессов ДЗЗ остаются недостаточно изученными. Мы восполняем этот пробел с помощью унифицированного эталона и прикладного исследования. Во-первых, мы систематически адаптируем и оцениваем репрезентативные методы поиска составных изображений с шестью базовыми моделями «зрение-язык» на наборе данных PatternCom в рамках стандартизированного протокола, анализируя их поведение в зависимости от базовых моделей, стратегий композиции и типов запросов. Во-вторых, мы представляем xView2-CIR — набор данных, ориентированный на изменения, для мониторинга катастроф и ущерба, где поиск обусловлен идентичностью сцены и целевым состоянием после события. Наши результаты показывают, что методы композиции без обучения обеспечивают надежные и масштабируемые базовые линии для поиска в ДЗЗ, в то время как поиск, ориентированный на изменения, представляет иные задачи по сравнению с поиском на основе атрибутов, особенно ввиду необходимости сохранения идентичности сцены. В целом, данное исследование устанавливает практический эталон для RSCIR и позиционирует составной поиск как дополнительный инструмент для поиска изображений дистанционного зондирования, исследования архивов и анализа изменений. Набор данных и код доступны по адресу https://github.com/billpsomas/rscir.
Условная генерация движений человека остаётся фундаментальной проблемой в компьютерном зрении и робототехнике. Несмотря на значительный прогресс, современные методы часто ограничены фиксированными модальными конфигурациями и архитектурами, ориентированными на конкретные задачи, что оставляет кросс-модальные взаимодействия и масштабирующие законы мультимодального синтеза во многом неизученными. Ключевым узким местом является нехватка крупномасштабных модально-согласованных данных о движении, что ограничивает обобщение на различные управляющие сигналы. В данной работе мы представляем OmniHuMo — крупномасштабный высококачественный набор данных, содержащий более 5000 часов движения и 3,2 миллиона последовательностей с точно согласованными мультимодальными аннотациями (например, текст, речь, музыка и траектория). Опираясь на OmniHuMo, мы предлагаем AnyMo — унифицированную мультимодальную архитектуру, объединяющую токенизатор движений на основе Residual FSQ с масштабируемым трансформером с маскированным моделированием, что обеспечивает высококачественный синтез движений при произвольных комбинациях модальностей. Обширные эксперименты показывают, что AnyMo достигает синтеза высокой точности, предоставляя гибкий контроль как над пространственными, так и над стилистическими атрибутами.
Интеграция беспилотных летательных аппаратов (БПЛА) в интеллектуальные транспортные системы (ИТС) обеспечивает синоптическую обзорность для мониторинга дорожного движения, однако масштабируемое развертывание затрудняется фрагментацией траекторий — потерей сохранения идентичности транспортных средств при переходе между полями зрения (ПЗ) нескольких БПЛА. Современные фреймворки, превосходно справляющиеся с задачей локального извлечения траекторий и обеспечения стабильности на одиночных дроновых изображениях, зачастую функционируют как изолированные хранилища данных, генерируя разрозненные траектории, что исключает возможность анализа на уровне сети, например, оценки источника и назначения. В данной статье представлена многокамерная система отслеживания множества транспортных средств (MCMT) реального времени, предназначенная для обеспечения глобальной устойчивости идентичности. Для устранения визуальной неоднозначности и вычислительной стоимости реидентификации (Re-ID) на основе внешнего вида при съемке в надир мы предлагаем легковесный топологически-пространственно-временной механизм передачи. Мы реализуем высокопроизводительный конвейер с параллельной обработкой, использующий YOLO11 и ByteTrack для одновременной обработки потоков 4K. Основной вклад нашей работы — это детерминированный алгоритм сопоставления на основе очередей, который использует геометрические перекрытия и виртуальную дискретизацию полос движения для прогнозируемого управления передачей идентичности через очереди FIFO. Экспериментальные результаты на сложных городских сценариях, включая перекрестки и сливающиеся потоки движения, демонстрируют коэффициент успешности передачи (HOSR) 99,8% в непрерывных транспортных потоках, что значительно превосходит базовые алгоритмы Re-ID (74,1%) и подтверждает возможность развертывания на граничных устройствах. Исходный код доступен по адресу https://github.com/JYe9/multi-camera-multi-vehicle-tracking-system.
Системы физического ИИ, включая роботов, автономные транспортные средства, воплощённые агенты и периферийные копилоты, часто выполняют вывод, отличающийся от облачного LLM-сервинга: однопоточная декодировка с размером пакета 1 (batch-1 autoregressive decode), где один робот, видеопоток или сессия пользователя ожидают следующего токена. Этот тип нагрузки обычно описывается как ограниченный пропускной способностью памяти. На каждом шаге декодирования потоково передаются веса модели и активный KV-кэш, поэтому задержка должна масштабироваться в соответствии с пиковой пропускной способностью HBM. Мы показываем, что это объяснение верно, но неполно. Мы измеряем декодирование с batch-1 для трёх GQA-трансформеров класса 7–8B на четырёх GPU NVIDIA: H100 SXM5, A100-80GB SXM4, L40S и L4. Мы оцениваем длины контекста от 2048 до 16384, получая 44 валидных ячейки в контролируемой конфигурации bf16 SDPA. Достигнутая доля пиковой пропускной способности HBM снижается по мере роста пиковой пропускной способности. Для базового случая Qwen-2.5-7B с ctx=2048 L4 достигает примерно 81% от аналитического минимального уровня использования памяти, в то время как H100 — лишь 27%. Декодирование в физическом ИИ является память-доминированным, но более быстрая память не приводит к пропорциональному снижению задержки. Мы проверяем недостающий фактор с помощью эксперимента A/B с CUDA Graphs. На H100 при ctx=2048 CUDA Graphs улучшает задержку декодирования в 1.259 раза по N=10 свежим сессиям с 95% бутстреп-доверительным интервалом от 1.253 до 1.267. На L4 то же вмешательство даёт лишь 1.028x. Это изолирует накладные расходы на стороне запуска, которые становятся заметны на быстрых GPU, но в основном остаются скрытыми на более медленных, ограниченных пропускной способностью памяти GPU. Практический вывод для развёртывания в том, что экономия памяти имеет значение только тогда, когда среда выполнения её реализует. На L4 декодирование в bf16 находится близко к минимальному уровню использования памяти, но распространённые квантованные подходы не дают ожидаемого четырёхкратного снижения трафика весов: bnb-nf4 достигает 59.36 мс/шаг, а AutoAWQ+Marlin — 45.24 мс/шаг при базалайне bf16 в 62.32 мс. GPTQ+ExLlamaV2 с Ada-оптимизированными int4-ядрами достигает 17.36 мс/шаг.
Методы обучения с подкреплением, основанные на групповом преимуществе, такие как GRPO и DAPO, продемонстрировали высокую эффективность в различных областях, включая математические рассуждения и генерацию изображений по текстовому описанию. Однако их зависимость от вознаграждений на уровне выборок вносит ключевое ограничение: равномерное распределение значимости по всем токенам не позволяет улавливать тонкие вклады на уровне отдельных токенов. Для решения этой проблемы мы предлагаем Guidance Contrastive Policy Optimization (GCPO) — новый алгоритм, обеспечивающий присвоение значимости на уровне токенов путем сравнения предсказаний модели при положительных и отрицательных подсказках. Вместо равномерного распространения преимуществ на уровне выборок GCPO присваивает преимущества на уровне токенов, пропорциональные разнице между этими контрастными предсказаниями, что позволяет получать более точные и информативные обучающие сигналы. Эмпирически мы обнаружили, что GCPO акцентирует семантически релевантные области, такие как визуальные зоны, соответствующие текстовым подсказкам при генерации изображений, и критические ключевые слова в цепочках рассуждений для задач, основанных на цепочке мыслей. В ходе обширных экспериментов GCPO стабильно превосходит базовые модели GRPO и DAPO как в задачах генерации изображений по тексту, так и в тестах на рассуждение с цепочкой мыслей, демонстрируя свою эффективность как общая и масштабируемая стратегия оптимизации для дискретного обучения политик.
Если агент ИИ принимает решения от имени человека, эти решения должны соответствовать его пользователю. Мы вводим понятие точности представления для оценки того, насколько верно система отражает интерпретацию человека. Интерпретационный слой операционализируется как поведенческая спецификация. Наша эталонная реализация агрессивно сжимает данные человека в интерпретационные паттерны, которые затем подаются в качестве контекста языковой модели. Мы оцениваем спецификацию на прототипном бенчмарке, состоящем из прогнозов поведения на отложенных данных, оцененных откалиброванной коллегией из пяти LLM-судей. Мы тестируем её как независимо, так и в композиции с рядом контекстных условий: полный необработанный корпус, полный набор извлечённых фактов и четыре коммерческие системы памяти (Mem0, Letta, Supermemory, Zep). На 14 автобиографических корпусах из общедоступных источников спецификация в целом повышает точность представления и почти полностью устраняет хеджирование модели. Она восстанавливает большую часть того, что даёт необработанный корпус, при затратах контекста примерно в 25 раз меньше. Спецификация подтягивает субъектов к общему уровню предсказательной способности независимо от базового уровня предобучения; абсолютный прирост поэтому максимален там, где базовый уровень наименьший, что указывает на то, что целевая популяция включает любого, кто недостаточно представлен в предобучении. Прирост наибольший для вопросов, требующих интерпретации, где предоставление интерпретационного слоя позволяет модели демонстрировать поведение, недоступное для извлечённых фактов или необработанного корпуса. И наоборот, для вопросов, требующих припоминания, этот слой может скорее мешать, чем помогать. Мы заключаем, что точность представления отличается от припоминания и что согласованность человека и ИИ зависит от того, насколько точно представлен пользователь. Точность представления делает эту согласованность проверяемой.
Обучение визуомоторным политикам посредством поведенческого клонирования обычно включает имитацию демонстраций экспертов, собранных операторами-людьми. Однако естественные человеческие демонстрации по своей сути содержат высокочастотный шум, такой как прерывистые рывки, паузы и дрожание действий. Обучение политик непосредственному подражанию этим исходным траекториям неизбежно приводит к тому, что модель наследует эти неоптимальные поведения. Эта патология особенно ярко выражена в политиках на основе диффузии, где итеративные шаги шумоподавления могут непреднамеренно усиливать высокочастотные артефакты в ущерб значимым мелкозернистым деталям. Для преодоления этих ограничений мы представляем новый частотно-ориентированный алгоритм, обеспечивающий неявное спектральное управление и плавную генерацию действий. Наш метод, оператор частотного управления (Frequency Guidance Operator, FGO), направляет процесс генерации диффузионных политик, последовательно перемещая зашумленные выборки через промежуточные подчастотные многообразия с расширяющимися спектральными полосами. Проверенный на 15 задачах роботизированного манипулирования из 5 эталонных тестов, FGO демонстрирует превосходную производительность в повышении плавности действий и временной согласованности, сохраняя при этом детали, необходимые для успешного выполнения задачи. Веб-сайт проекта: https://henrywjl.github.io/frequency-guidance-operator/
В то время как предыдущие исследования в области многомерного прогнозирования временных рядов были сосредоточены на разработке сложных целостных моделей, данная работа призывает к переходу к детальному, покомпонентному пониманию их влияния. Мы предлагаем TSCOMP — первый крупномасштабный бенчмарк, который систематически деконструирует методы глубокого прогнозирования до их основных, тонкозернистых компонентов, охватывающих предварительную обработку рядов, стратегии кодирования, архитектуры нейронных сетей, включая специализированные и большие модели временных рядов, а также методы оптимизации. Используя ограниченный ортогональный экспериментальный план и обширные оценки, мы проводим многоаспектный анализ, который выявляет эффективность компонентов в различных базовых архитектурах, характеристиках данных и их взаимодействиях. Помимо предоставления аналитических выводов, этот бенчмарк создает тонкозернистый корпус производительности, включающий более 20 000 оценок по парам «модель–набор данных», что поддерживает обучение автоматическому выбору компонентов и позволяет создавать модели без обучения на новых наборах данных. Наши эксперименты показывают, что подход, основанный на корпусе, несмотря на свою простоту, стабильно превосходит современные методы, подтверждая обоснованность нашего дизайна оценки и демонстрируя, что систематический выбор компонентов превосходит вручную разработанные сложные архитектуры. Весь код и корпус производительности доступны по адресу https://github.com/SUFE-AILAB/TSCOMP.