Ежедневно отобранные исследовательские статьи по ИИ с переводами
Циклические трансформеры (Looped Transformers) масштабируют латентные вычисления за счет многократного применения общих блоков, однако последовательные циклы увеличивают задержку и объем памяти KV-кэша пропорционально количеству циклов. Трансформеры с параллельными циклами (Parallel Loop Transformers, PLT) снижают эти затраты с помощью межцикловых позиционных смещений (cross-loop position offsets, CLP) и внимания с управляющим скользящим окном с общими KV, что делает количество циклов практичным проектным выбором. Поэтому мы исследуем выбор количества циклов в PLT с точки зрения выгоды и затрат: дополнительный цикл может улучшить представления, но CLP также вносит позиционное несоответствие на каждой границе цикла. Мы реализуем это исследование путем обучения LoopCoder-v2, семейства 7B PLT-кодеров с различным количеством циклов, с нуля на 18T токенах, с последующим согласованным дообучением на инструкциях и оценкой. Эмпирически вариант с двумя циклами демонстрирует широкий прирост по сравнению с базовой моделью без циклов в задачах генерации кода, рассуждений о коде, агентной программной инженерии и использования инструментов, улучшая показатели SWE-bench Verified с 43,0 до 64,4 балла и Multi-SWE с 14,0 до 31,0 балла. Напротив, варианты с тремя и более циклами показывают регресс, что выявляет сильно немонотонный эффект количества циклов. Наши диагностические результаты показывают, что второй цикл обеспечивает основное продуктивное улучшение, в то время как последующие циклы дают убывающие, осциллирующие обновления и снижают разнообразие представлений. Поскольку вызванное CLP несоответствие остается примерно фиксированным, в то время как выгода от улучшения уменьшается, затраты на смещения начинают все больше доминировать. Этот компромисс между выгодой и затратами объясняет насыщение PLT при двух циклах и предоставляет диагностические критерии для выбора количества циклов.
Модели Vision-Language-Action (VLA) выигрывают от масштабных и разнообразных воплощенных данных, однако масштабирование сбора роботизированных траекторий является дорогостоящим и трудоемким. Недавние достижения показывают, что крупномасштабные эгоцентричные видеозаписи человека обеспечивают дополнительное обучение на реальных данных в процессе предварительного обучения. Тем не менее, совместное обучение на человеческих и роботизированных данных остается сложным из-за различий в пространствах действий, структурах воплощения, временной динамике и качестве обучения. Мы представляем ACE-EGO-0, унифицированную структуру предварительного обучения VLA, совместно использующую разнородные источники данных. Для извлечения крупномасштабного обучающего сигнала для предварительного обучения из эгоцентричных видеозаписей человека мы создаем масштабируемый конвейер преобразования эгоцентричного видео в действия, который конвертирует исходные человеческие видео в траектории псевдо-действий в формате робота. Чтобы сделать эти метки сопоставимыми с демонстрациями робота, ACE-EGO-0 использует унифицированное представление действий на основе действий в пространстве камеры, обусловленности морфологией и синхронизированного по времени разбиения действий на фрагменты. Для надежного использования зашумленного обучения на псевдо-действиях из эгоцентричных человеческих видео мы формулируем цель обучения, учитывающую надежность, с вспомогательной человеческой функцией потерь, которая концентрирует обучение на надежных сигналах. Мы реализуем ACE-EGO-0 на 4,53 тыс. часов роботизированных и симуляционных данных, а также на 1,48 тыс. часов эгоцентричных человеческих данных, размеченных псевдо-действиями. Эксперименты показывают, что включение крупномасштабного обучения на человеческих данных с весами, учитывающими надежность, последовательно улучшает как унифицированное совместное предварительное обучение, так и последующую тонкую настройку с учителем. ACE-EGO-0 достигает передовой производительности на RoboCasa GR1 TableTop и RoboTwin 2.0, демонстрируя при этом сильную переносимость на реальную двуручную манипуляцию.
Дистилляция знаний переносит компетенцию учителя на маленького ученика, но оказывается хрупкой в режиме малого ученика: принуждение ученика имитировать логиты от гораздо большего учителя концентрирует его на самых резких модах учителя, что вредит обобщению на семейства бенчмарков за пределами обучающего корпуса. Обучение с подкреплением (RL) избегает имитации логитов, обучаясь на собственных траекториях (rollouts) ученика. Однако на вопросах, где каждая траектория завершается неудачей – давая нулевое преимущество и молча отбрасываясь – внедрение ответа более сильного учителя в градиент политики нарушает предположение on-policy и вызывает дрейф. Мы представляем Zone of Proximal Policy Optimization (ZPPO), вдохновленную зоной ближайшего развития Выготского, которая держит учителя внутри промпта, а не в градиенте политики. На сложных вопросах ZPPO создает два переформулированных промпта: Binary Candidate-included Question (BCQ) связывает один правильный ответ учителя с одним неправильным ответом ученика в виде анонимных кандидатов, которые ученик должен различить, и Negative Candidate-included Question (NCQ) агрегирует неправильные траектории ученика в один промпт, чтобы выявить их общие паттерны неудач. Буфер воспроизведения промптов повторно циркулирует каждый сложный вопрос, пока он либо не заканчивает обучение – средняя точность траекторий ученика по нему достигает половины, – либо не вытесняется по принципу FIFO при ограниченной емкости, усиливая BCQ и NCQ в текущей зоне ближайшего развития ученика. На семействе Qwen3.5 с четырьмя масштабами ученика (0.8B–9B) и учителем размером 27B, дообученном как визуально-языковые модели и оцененном на наборе из 31 бенчмарка (16 VLM, 10 LLM, 5 Video), ZPPO превосходит off/on-policy дистилляцию и GRPO, причем наибольший прирост наблюдается при самом маленьком масштабе.
Генерация игр представляет собой новое приложение агентов кодирования, требующее от моделей преобразования спецификаций на естественном языке в играбельные интерактивные системы. В отличие от традиционных задач кодирования, генерация игр происходит в рамках игрового движка, где скрипты, сцены, ассеты, рендеринг и взаимодействия во время выполнения должны совместно обеспечивать связный игровой процесс. Мы формализуем сквозную генерацию игр как задачу создания полного игрового артефакта, реализующего спецификацию через наблюдаемое взаимодействие игрока с игрой в целевой среде. Мы утверждаем, что оценка данного подхода требует выполнения трёх критериев: привязка к движку, полнота артефакта и интерактивная верификация. Мы предлагаем систему оценки на основе взаимодействия, которая анализирует исполняемый игровой процесс посредством повторно воспроизводимых демонстраций и многомодальной оценки с руководством по рубрикам. Эта система реализована в бенчмарке GameCraft-Bench, включающем 140 задач на движке Godot из 15 семейств игр. Оценки передовых агентов кодирования показывают, что сквозная генерация игр остаётся крайне сложной задачей: самый сильный агент достигает лишь 41,46%, а большинство агентов набирают ниже 40%. Дальнейший анализ показывает, что, хотя агенты часто реализуют узнаваемые механики, они испытывают трудности с созданием полноценных игр, содержащих достаточный контент, функциональную визуальную обратную связь и связное представление. Демонстрации, код и данные доступны по адресу: https://tongxuluo.github.io/gamecraft-bench-website.
Эффективное персонализированное обучение с поддержкой ИИ требует систем, способных не только генерировать точные учебные материалы, адаптированные к конкретному обучающемуся, но и динамически адаптировать свои инструкции к различным учащимся. Однако существующие образовательные агенты в основном сосредоточены на автоматизации лекционного контента и симуляциях, что часто не позволяет моделировать мультимодальные и воплощенные методы обучения, адаптированные к индивидуальному обучающемуся. Для решения этой проблемы мы предлагаем LectūraAgents — многоагентную структуру, обеспечивающую персонализированное обучение за счет сквозного адаптивного воплощенного преподавания. В основе LectūraAgents лежит отношение «профессор–студент», в котором ProfessorAgent руководит коллаборативной командой специализированных подчиненных агентов, осуществляя исследование, планирование, проверку и воплощенное представление лекционных материалов, адаптированных к потребностям обучающегося. Структура предлагает три основных вклада: (1) иерархическая многоагентная архитектура для сквозного персонализированного обучения; (2) механизм адаптивного воплощенного преподавания, в котором ProfessorAgent выполняет видимые и педагогически обоснованные обучающие действия (например, запись от руки, подсветка, подчеркивание и т.д.) с контентом в учебной среде; и (3) алгоритм согласования речевых и обучающих действий (TASA), использующий эвристики на основе значимости и временную семантическую сегментацию для генерации последовательностей обучающих действий, согласованных с профилем обучающегося. Мы оценили LectūraAgents на различных курсах уровней старшей школы, бакалавриата и магистратуры с использованием образно-ориентированного рубричного анализа; сгенерированные лекционные материалы и обучающие действия были оценены и валидированы экспертами-педагогами. Экспериментальные результаты демонстрируют устойчивое улучшение качества лекционного контента, качества воплощенного преподавания, оценки и персонализации по сравнению с существующими подходами, что позиционирует LectūraAgents как педагогически обоснованную структуру для масштабного персонализированного обучения.
Клинические системы раннего предупреждения, построенные на основе электронных медицинских карт, в которых клинические наблюдения фиксируются в виде нерегулярно дискретизированных медицинских временных рядов (НДМВР), должны обеспечивать как калиброванные оценки риска для сортировки пациентов, так и интерпретируемые обоснования, которые клиницисты могут верифицировать. Большие языковые модели (БЯМ) исследовались для этой задачи, однако они сводят градуированный клинический риск к самоуверенным бинарным прогнозам. Такая поляризация риска подрывает как калибровку, так и сопоставимость между пациентами. Чтобы решить эту проблему, мы предлагаем TRIAGE — фреймворк, который обучает БЯМ генерировать диалектические рассуждения относительно конкурирующих клинических исходов путем извлечения обоснований, специфичных для каждого исхода. Такая диалектическая формулировка снижает поляризацию риска, позволяя одной БЯМ выдавать непрерывные оценки риска, основанные на явном клиническом рассуждении. При оценке на трех эталонных наборах данных НДМВР TRIAGE достигает среднего улучшения AUPRC на 3,3% и снижает ошибку калибровки на 81% по сравнению с конкурентоспособными базовыми моделями. Оценка с использованием БЯМ в роли судьи дополнительно показывает, что наши обоснования превосходят постфактум объяснения от базовой модели на 20% по качеству клинического рассуждения. Исходный код доступен по адресу https://github.com/HyeongWon-Jang/TRIAGE .
Самодистилляция на политике (OPSD) доказала свою эффективность для пост-тренировки больших языковых моделей (LLM), однако её применение к диффузионным языковым моделям (dLLM) остаётся неизученным. Существующие методы OPSD по своей сути ориентированы на авторегрессию: они внедряют привилегированную информацию через обусловливание префиксом слева направо с контролем на уровне токенов по дивергенции — подход, который принципиально противоречит генерации в произвольном порядке, свойственной dLLM. Мы представляем d-OPSD — первую структуру OPSD, адаптированную для dLLM. Наш подход вносит два ключевых вклада. Во-первых, мы переосмысливаем конструирование самоучителя, используя самостоятельно сгенерированные ответы в качестве обусловливания суффиксом, что позволяет модели-ученику учиться на «само-будущем опыте», а не на привилегированных префиксах. Во-вторых, мы переводим контроль с уровня токенов на уровень шагов, согласовывая обучение с итеративным процессом шумоподавления dLLM. Эксперименты на четырёх бенчмарках рассуждений показывают, что d-OPSD стабильно превосходит базовые методы RLVR и SFT, обладая превосходной эффективностью использования выборки: требуется лишь около 10% шагов оптимизации от RLVR, что открывает многообещающий путь для пост-тренировки dLLM. Код доступен по адресу https://github.com/xingzhejun/d-OPSD.
Память стала стандартной основой для самоэволюционирующих агентов, однако сохранение опыта не равнозначно обучению эволюции через него. Существующие агенты памяти могут хранить траектории, извлекать размышления или накапливать навыки, но часто не обладают целостной компетенцией для выбора полезного опыта, действия на его основе, записи повторно используемых знаний и поддержания растущего репозитория. Мы представляем OPD-Evolver — структуру медленно-быстрой совместной эволюции, которая развивает такого эволюционирующего агента посредством собственной дистилляции на политике. В быстром цикле OPD-Evolver взаимодействует с четырехуровневой иерархией памяти для чтения, использования, записи и поддержания опыта с целью быстрой эволюции во время тестирования. В медленном цикле калиброванная по результатам атрибуция памяти и привилегированное ретроспективное знание дистиллируют эти четыре способности в развертываемую политику. На многодоменных бенчмарках OPD-Evolver превосходит системы памяти, такие как ReasoningBank, на 11,5%, и методы на основе обучения, такие как Skill0, на ~5,8%. Дальнейший анализ показывает, что OPD-Evolver интернализует ценный опыт и управление памятью, позволяя OPD-Evolver-9B бросать вызов гигантским аналогам, таким как Qwen3.5-397B-A17B и Step-3.5-Flash, указывая путь за пределы агентов с дополненной памятью к действительно квалифицированным эволюционирующим агентам.
Диффузионные модели в пиксельном пространстве обучаются на зашумленных изображениях с полной полосой пропускания, однако полезный сигнал, доступный шумоподавителю, сильно зависит от частоты. В условиях диффузии с выпрямленным потоком и степенных спектров естественных изображений контур отношения сигнал/шум на полосу \(k^{*}(t) = (1-t)^{-2/\alpha}\) разделяет в каждый момент времени \(t\) низкочастотную область, несущую сигнал, и высокочастотную область, где преобладает шум. Мы показываем, что эта неявная структура «от грубого к тонкому» не просто описательна: она порождает проблему распределения вычислительных ресурсов. Стандартный шумоподавитель в пиксельном пространстве должен самостоятельно обнаруживать движущуюся границу полосы пропускания и может тратить вычисления на частотно-временные области, где оптимальное предсказание сводится к детерминированным базовым линиям, а не к моделированию распределения данных. Чтобы сделать эту границу явной, мы вводим спектральное форсирование — непараметрический, зависящий от времени низкочастотный оператор 2D-DCT, применяемый к зашумленному входу перед встраиванием патчей. Его частота среза монотонно расширяется с увеличением времени диффузии и становится тождественным отображением в конечной точке данных. На контролируемых синтетических экспериментах мы выявляем режим, в котором оператор полезен: грубая токенизация патчей и данные, чье высокочастотное содержимое является преимущественно шумом, а не существенным сигналом. На ImageNet-256 с JiT-700M/32 спектральное форсирование последовательно улучшает как FID, так и Inception Score на разных этапах обучения, демонстрируя устойчивый выигрыш на протяжении всего обучения; при более тонкой токенизации спектральное форсирование остается конкурентоспособным. Мы также вставляем неизмененный оператор в SenseNova-U1 — единую модель генерации текста в изображение, где он улучшает показатели DPG-Bench и GenEval, что свидетельствует о переносе спектрального априорного знания на стороне входа за пределы класс-условной генерации. Эти результаты указывают на путь к эффективному по вычислительным ресурсам пиксельному пространству диффузии путем отображения сигнала и сокрытия шума.
Существующие методы редактирования изображений можно в целом разделить на основанные на текстовых инструкциях и основанные на визуальных подсказках. Текстовые инструкции обладают семантической выразительностью, но ограничены грубой гранулярностью пространственного контроля результатов редактирования. В отличие от них, визуальные подсказки, такие как перетаскивание и указание, обеспечивают точное пространственное управление, но страдают от присущей им неоднозначности семантического намерения. Чтобы объединить сильные стороны текстовых и визуальных подсказок, мы представляем метод редактирования изображений с совместными текстово-визуальными инструкциями, который совместно моделирует текстовые инструкции как семантическое намерение, а разреженные визуальные инструкции — как пространственное управление, нацеленный на достижение точного и соответствующего намерению манипулирования изображением. Для этого мы сначала создаем парный набор данных текстово-визуальных инструкций, содержащий более 23 тысяч образцов, полученных из динамических видео, что обеспечивает согласованное обучение для кросс-модальных инструкций. Затем мы предлагаем TV-Edit — единую структуру редактирования на основе текстовых и визуальных инструкций, которая контекстуализирует визуальные инструкции на основе перетаскивания или указания с семантикой изображения и текста и преобразует их в семантически осознанные управляющие представления для предварительно обученных основ редактирования. Интегрируя семантическое намерение и пространственные ограничения, TV-Edit обеспечивает более точный пространственный контроль, меньшую неоднозначность инструкций и более сильную структурную согласованность по сравнению с альтернативами на основе только текста или только перетаскивания. Наконец, мы создаем TV-Edit-Bench — тщательно разработанный бенчмарк для оценки семантического соответствия, пространственного выравнивания и визуальной согласованности с эталонными данными и контролируемыми текстово-визуальными вариациями для надежного оценивания. Наши эксперименты на нескольких основах редактирования показывают, что TV-Edit последовательно обеспечивает более точные и соответствующие намерению правки, значительно превосходя современные базовые методы на основе инструкций и перетаскивания.
Современные языковые модели все чаще используют гибридные архитектуры, сочетающие полное внимание с эффективными модулями внимания, такими как скользящее окно внимания (SWA) и рекуррентные смесители последовательностей. Однако то, как эти эффективные модули формируют возможности моделей, остается плохо изученным. Для восполнения этого пробела мы проводим систематический анализ гибридных архитектур с трех точек зрения: поведения при масштабировании, анализа механизмов и дизайна архитектуры. Во-первых, с точки зрения масштабирования, мы обнаруживаем, что дизайн эффективного внимания в первую очередь влияет на скорость проявления способности к работе с длинным контекстом, в то время как различные гибриды в конечном итоге сходятся к сопоставимой производительности на длинных контекстах при достаточном обучении. Во-вторых, с точки зрения механизмов, мы показываем, что извлечение информации на больших расстояниях в основном осуществляется полным вниманием, тогда как эффективное внимание формирует траекторию его оптимизации. Это объясняет контринтуитивный феномен, который мы называем леностью большого окна (Large-Window Laziness): большие окна SWA могут задерживать формирование извлекающих голов в слоях полного внимания. В-третьих, руководствуясь этим механизмом, мы показываем, что применение NoPE только к слоям полного внимания в гибриде с малым окном SWA существенно улучшает производительность на длинных контекстах при незначительном влиянии на производительность на коротких контекстах.
Модели видения-языка (VLM) обычно обучаются как пассивные отвечающие, в то время как их способность активно задавать разнообразные, нетривиальные, визуально-ориентированные и обоснованные вопросы остаётся малоизученной. Производительность существующих визуальных вопрошателей ограничена доступностью обучающих данных высокого качества или затратами на их курирование. Мы показываем, что VLM может непрерывно самосовершенствоваться в качестве визуального вопрошателя без какого-либо внешнего контроля. Мы предлагаем саморазвивающуюся схему, которая использует саму VLM и в качестве создателя, и в качестве фильтра для генерации более сложных, информативных и визуально-ориентированных вопросов, при этом поддерживая разнообразие их исследования, чтобы избежать коллапса обучения. Затем эти вопросы используются для обучения VLM как в режиме вопрошателя, так и в режиме отвечающего. Для оценки вопрошателя мы вводим агентный протокол, который оценивает вопросы по параметрам восприятия, рассуждения и разнообразия. Эксперименты на различных базовых VLM показывают, что наш метод значительно повышает качество и существенно расширяет границы сложности автономной генерации вопросов. При одинаковом бюджете наш метод самоконтроля более эффективен, чем обучение на статичных исходных данных. Более того, саморазвивающийся вопрошатель остаётся конкурентоспособным или даже лучшим отвечающим.
Переход от генерации видео к интерактивному моделированию мира предъявляет новые требования к данным: помимо видео с подписями, мировым моделям необходимы темпорально согласованные траектории «видео–действие–язык», привязанные к действиям, движениям камеры, состояниям и событиям, которые определяют будущие изменения сцены. Однако такие данные сложно получить в больших масштабах. Наборы веб-видео обеспечивают широкий визуальный охват, но лишены выполнимых действий и надёжных состояний; роботизированные наборы данных содержат информацию о действиях и состояниях, но дороги и ограничены в разнообразии сцен; существующие симуляторы зачастую не имеют крупномасштабных траекторий взаимодействия, управляемых человеком. В данной статье мы представляем EgoCS-400K — крупномасштабный набор эгоцентрических данных Counter-Strike, основанных на воспроизведении и предназначенных для мировых моделей. Он построен на профессиональных демо-записях матчей CS и CS2 общего доступа, которые сохраняют траектории игры человека и обеспечивают возможность парсинга, воспроизведения, рендеринга и темпорального согласования. Мы извлекаем состояния игроков, направления взгляда, движения, ввод с клавиатуры/кнопок, изменения угла обзора, использование оружия, игровые события и контекст на уровне раундов, а также рендерим чистые видео от первого лица по тем же траекториям. EgoCS-400K содержит более 400 000 видеороликов от первого лица и 10 000 часов геймплея из более чем 1 000 матчей и 40 000 раундов, охватывающих 13 карт и 10 точек обзора игроков на раунд. Набор поддерживает ряд задач интерактивного визуального моделирования, включая предсказание будущего, обусловленное действиями, развёртывание сцены с учётом состояния и событий, подписывание на основе воспроизведения, а также понимание эгоцентрических действий агента. Соединяя в масштабе визуальные наблюдения с человеческими действиями, движениями камеры, состояниями игры и событиями, EgoCS-400K служит практическим мостом между пассивными веб-видео, управляемой игровой симуляцией и дорогостоящими данными реального воплощённого опыта.
Современные модели мира сталкиваются с фундаментальным противоречием: точная долгосрочная симуляция требует глубоких вычислений, но более глубокие модели дороги в развертывании и подвержены накоплению ошибок. Мы решаем эту проблему, представляя Looped World Models (LoopWM) — первые зацикленные архитектуры для моделирования мира. Наш метод итеративно уточняет скрытые состояния среды через блок трансформера с общими параметрами. Это обеспечивает до 100-кратной эффективности по параметрам по сравнению с традиционными подходами, а также адаптивные вычисления, которые автоматически масштабируют глубину в соответствии со сложностью каждого шага предсказания. Ортогонально к масштабированию размера модели и обучающих данных, LoopWM устанавливает итеративную скрытую глубину как новую ось масштабирования для симуляции мира, что может значительно продвинуть сообщество вперед.
Единое мультимодальное моделирование направлено на интеграцию зрительного восприятия и генерации в единой системе. Однако существующие подходы, как правило, полагаются на два различных визуальных токенизатора, что разделяет пространство представлений и препятствует истинно унифицированному моделированию. Мы предлагаем UniAR — единую авторегрессионную архитектуру, в которой единственный дискретный визуальный токенизатор служит ключевым связующим звеном между пониманием и генерацией, обеспечивая общий контекст, позволяющий модели напрямую интерпретировать собственные сгенерированные визуальные токены без дополнительного повторного кодирования. UniAR адаптирует предварительно обученный кодер зрения с многоуровневым слиянием признаков и безпоисковым побитовым квантованием, сохраняя как семантику высокого уровня, так и детали низкого уровня, при этом масштабируя эффективный визуальный словарь с минимальными затратами. На этой основе единая авторегрессионная модель использует параллельное побитовое прогнозирование для совместного предсказания пространственно сгруппированных многоуровневых визуальных кодов, что существенно сокращает длину визуальной последовательности и ускоряет генерацию. Наконец, диффузионный визуальный декодер работает с дискретными визуальными токенами для декодирования изображений высокого качества. Благодаря крупномасштабному предварительному обучению с последующим контролируемым дообучением и обучением с подкреплением, UniAR достигает передовых результатов в генерации и редактировании изображений, оставаясь конкурентоспособным в задачах мультимодального понимания. Страница проекта доступна по адресу https://sharelab-sii.github.io/uniar-web.
Агентный поиск по большим корпусам опирается на интерфейсы, опосредованные ретривером (например, BM25 или ColBERT), для масштабируемого обнаружения кандидатов. Хотя эти интерфейсы эффективно ранжируют релевантные документы, они предоставляют доказательства лишь в виде ранжированных результатов или ограниченных представлений документов, что ограничивает способность агентов реорганизовывать материал и проверять ограничения между документами. Прямое взаимодействие с корпусом (DCI) решает эту проблему, предоставляя операции с корпусом, выполняемые в командной оболочке, для гибкого поиска, фильтрации, сравнения и верификации. Однако при увеличении корпуса полноценные терминальные команды становятся медленными и нестабильными, снижая производительность и эффективность. Мы представляем DR-DCI — фреймворк DCI, управляемый ретривером, который рассматривает поиск как вызываемое агентом действие для расширения локального рабочего пространства. Вместо работы непосредственно со всем корпусом агент динамически извлекает релевантные документы в развивающееся рабочее пространство и выполняет в нем операции DCI. Такая конструкция сочетает полноту на уровне ретривера с точностью в стиле DCI: поиск обеспечивает масштабируемость исследования, а DCI сохраняет локальные операции, необходимые для эффективного разрешения доказательств. Эксперименты показывают, что DR-DCI эффективен и результативен при различных масштабах. На Browsecomp-Plus DR-DCI достигает точности 71,2%, улучшая показатели по сравнению с исходным DCI и вариантами с абляцией на величину до 8,3 процентных пункта, одновременно снижая использование инструментов, реальное время и расчетную стоимость. При сбросе контекста с сохранением рабочего пространства точность дополнительно повышается до 73,3%. В экспериментах по масштабированию корпуса DR-DCI сохраняет эффективность при диапазоне от 100 тысяч до 10 миллионов документов, тогда как исходный DCI становится нестабильным, а BM25 демонстрирует значительно худшие результаты. DR-DCI также масштабируется до конфигурации Wiki-18 QA с 20 миллионами файлов на документ, достигая среднего балла 63,0 по шести бенчмаркам и превосходя базовые подходы на основе поиска и обученные агенты поиска. Абляционный анализ дополнительно показывает, что ранжированные предварительные просмотры и междокументное DCI имеют ключевое значение для производительности.
Большие языковые модели демонстрируют все более высокие результаты на стандартных бенчмарках логического рассуждения, однако остается неясным, сохраняется ли эта способность за пределами английского языка. Мы представляем ChLogic — согласованный англо-китайский бенчмарк, который проверяет, сохраняют ли модели производительность логического рассуждения, когда одна и та же латентная логическая структура выражается на английском языке и в различных поверхностных реализациях на китайском. Построенный на основе формальных логических шаблонов, бенчмарк включает три набора данных: (i) общий согласованный набор, полученный из 60 общих пропозиций, охватывающих девять семейств шаблонов; (ii) сложный согласованный набор, полученный из 40 сложных задач; и (iii) набор только на китайском языке, охватывающий 15 типов языковых явлений. Каждый согласованный элемент сопоставляет одно эталонное выражение на английском языке с пятью реализациями на китайском. Эксперименты на моделях Qwen3, Ministral и GLM выявили устойчивый разрыв в производительности между английским и китайским. Обратный перевод со стандартного китайского на английский часто улучшает производительность на общем согласованном наборе, но приводит к неоднозначным результатам на сложном согласованном наборе, где Qwen3-32B и GLM-5.1 после перевода показывают ухудшение. Эти результаты указывают на то, что поверхностная реализация на китайском, артефакты перевода и специфичное для модели поведение совместно влияют на многоязычное логическое рассуждение. В целом, ChLogic представляет собой полезный стресс-тест для оценки устойчивости многоязычного рассуждения.
Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) повышает качество рассуждений языковых моделей, однако оптимизация в стиле GRPO по-прежнему подвержена коллапсу. Мы анализируем эту нестабильность на основе градиентной динамики на уровне токенов, выводя таксономию, которая предсказывает, как обновления влияют на вероятности следующего токена и энтропию. Таксономия показывает, что стабильность совместно зависит от знака преимущества и распределения токенов при текущей политике. Руководствуясь этим результатом, мы предлагаем Winner Advantage Policy Optimization (WAPO) — простую онлайн-целевую функцию клиппированного градиента политики, которая обновляется только на завершениях с положительным преимуществом. На эталонных тестах математических рассуждений и многошаговых ответов на вопросы WAPO улучшает стабильность обучения и достигает результатов, не уступающих базовым моделям или превосходящих их, в нескольких семействах моделей. Полный код доступен по адресу https://github.com/layer6ai-labs/wapo.
Масштабирование размера модели, в частности глубины и ширины, обеспечило значительный прогресс в трансформерных языковых моделях. Однако большинство архитектур сохраняют постоянную ширину на всех уровнях, равномерно распределяя фиксированный бюджет параметров и вычислений, несмотря на то что разные слои могут играть различные вычислительные роли. В данной работе мы эмпирически исследуем неравномерное распределение ёмкости по глубине сети, предлагая архитектуру в форме песочных часов > <former. Эта конструкция поддерживает более широкие ранние и поздние слои, сужая средние, и использует непараметрический механизм изменения размера остаточных потоков. Для языковых моделей только с декодером в диапазоне от 200 млн до 2 млрд параметров (плотные) и 3 млрд параметров (MoE) наш > <former стабильно превосходит однородные базовые модели с тем же числом параметров по метрике потерь при языковом моделировании. За счёт уменьшения средней ширины слоёв данная архитектура также требует меньше общих FLOPs (22% сокращения в рамках согласованных кривых масштабирования по потерям с подгонкой) и меньшего объема памяти KV-кэша и затрат на ввод-вывод (15% сокращения). В ходе анализа мы показываем, что такая структура типа узкого горлышка приводит к качественно различным представлениям в остаточных потоках. В целом, наши результаты демонстрируют, что неравномерное распределение ширины может обеспечить более ресурсно-оптимальное масштабирование языковых моделей.
Интерактивные мировые модели стремятся моделировать динамику окружающей среды при действиях пользователя в реальном времени. Однако их словарь действий в значительной степени ограничен навигацией: большинство действий соответствуют перемещению (например, ходьба, поворот, осмотр), в то время как взаимодействие с объектами в сцене (например, поднять тарелки, открыть двери или вызвать физические реакции) либо отсутствует, либо ограничено игровыми доменами, либо относится к сценариям от запроса до полного видео. Полученные миры визуально исследуемы, но не по-настоящему интерактивны. В данной работе мы представляем ActWorld — интерактивную мировую модель, которая расширяет предыдущие генераторы, ориентированные на навигацию, для поддержки взаимодействия с объектами во время развертывания в рамках чанково-авторегрессионного подхода. Мы утверждаем, что разрыв между навигацией и взаимодействием обусловлен двумя узкими местами. Во-первых, узкое место в данных: отсутствие данных о взаимодействии человека с объектами с точными и плотными метками. Во-вторых, узкое место в памяти: сжатие истории с уклоном на недавние события в существующих мировых моделях отбрасывает кадры переходов событий, которые причинно определяют последующие состояния объектов, что приводит к патологии забывания действий. Со стороны данных мы создали набор данных из 100 000 видео взаимодействий, каждое из которых аннотировано подписями к каждому чанку с помощью цепного рассуждения. Со стороны модели мы вводим иерархическую архитектуру памяти, осведомленной о действиях, которая направляет сжатие истории в зависимости от важности взаимодействия, дополненную постоянным банком памяти, сохраняющим токены обновления событий и идентификации объектов на протяжении длительных развертываний. Эксперименты показывают, что ActWorld поддерживает как гибкую навигацию, так и богатое взаимодействие с объектами в рамках одной модели, значительно улучшая точность взаимодействия по сравнению с базовыми моделями, ориентированными только на навигацию, без потери контроля над точкой обзора. Страница проекта доступна по адресу https://interactwm.github.io/ActWorld.
Обучение агентов использования компьютера (computer-use agents, CUA) — моделей, которые взаимодействуют с графическими рабочими столами через скриншоты и действия клавиатуры/мыши — требует крупномасштабных и разнообразных данных траекторий, собранных в полноценных настольных средах. Крупнейший общедоступный ресурс AgentNet (22,5 тыс. человеческих траекторий) приводит к отрицательному переносу при использовании для контролируемого дообучения (supervised fine-tuning, SFT): продолжение обучения UI-TARS 7B на AgentNet вызывает падение показателя успешности на OSWorld с 26,3% до 8–10%. Мы представляем ProCUA-SFT — набор данных из 3,1 млн пошаговых SFT-образцов, дистиллированных из 93 тыс. синтетических траекторий, охватывающих 2 484 комбинации приложений. Набор данных создается полностью автоматизированным конвейером, который (i) синтезирует привязанные к среде задачи на активных рабочих столах, насыщенных реальным контентом — 912 электронных таблиц из SpreadsheetBench, около 10 тыс. презентаций с разрешительной лицензией из Zenodo10K и многоприкладные конфигурации OSWorld, — и (ii) проверяет выполнимость каждой задачи с помощью бинарной проверки предусловий перед развертыванием. Одна VLM (Kimi-K2.5) выступает в роли генератора целей, оценщика предусловий и исполнителя траекторий, устраняя разрывы в возможностях между планировщиком и исполнителем. Каждая траектория разворачивается в префиксные пошаговые образцы, которые точно воспроизводят контекстную компоновку, наблюдаемую во время инференса. Дообучение UI-TARS 7B на ProCUA-SFT в течение одной эпохи дает 45,0% на OSWorld — улучшение на 18,7 процентных пункта по сравнению с базовой моделью и более чем на 35% выше, чем у аналогов, обученных на AgentNet. Подмножество ProCUA было включено в обучающие данные для модели Nemotron 3 Nano Omni, что способствовало ее возможностям использования компьютера.
Агенты глубокого исследования всё чаще оцениваются по способности искать доказательства, рассуждать над извлечёнными источниками и давать обоснованные ответы. Существующие ориентиры для тестирования поиска, однако, в значительной степени предполагают, что запрос пользователя и подтверждающие доказательства написаны на одном языке, оставляя открытым вопрос, могут ли системы агентного поиска работать, когда соответствующие доказательства представлены на другом языке. Мы представляем XBCP (Cross-lingual BrowseComp-Plus) — контролируемый эталонный набор, сохраняющий пространство вопросов и ответов на английском языке из BrowseComp-Plus, но варьирующий языки подтверждающих документов. XBCP реализует два взаимодополняющих сценария: в кросс-языковом сценарии каждый запрос сопровождается доказательствами на одном заданном языке; в многоязычном сценарии полный корпус доказательств равномерно и случайным образом распределяется по 12 языкам, охватывающим как высокоресурсные, так и низкоресурсные режимы. Мы оцениваем четырёх агентов глубокого исследования с использованием разреженных и плотных многоязычных ретриверов, измеряя точность ответов, полноту доказательств, поисковое поведение, калибровку, достоверность цитирования и оракульный поиск. Результаты показывают существенную деградацию при переводе доказательств. Даже сильные плотные ретриверы теряют полноту доказательств, агенты становятся менее калиброванными и менее надёжно ссылаются на источники. Примечательно, что точность остаётся ниже, даже если все эталонные доказательства предоставлены напрямую. Эти результаты позволяют предположить, что кросс-языковое глубокое исследование выявляет как сбои в поиске, так и независимую, связанную с агентом трудность интеграции доказательств, не совпадающих по языку.
Мультимодальные большие языковые модели (MLLM) продемонстрировали впечатляющие возможности во многих визуальных задачах, однако часто испытывают трудности с фактическим обоснованием при столкновении со сложными сценариями открытого мира. Хотя недавние мультимодальные агенты глубокого поиска пытаются решить эту проблему с помощью внешних инструментов, парадигма визуально-нативного поиска остается недостаточно изученной. Существующие методы в основном полагаются на простые изображения с явной семантикой и текстовые траектории доказательств, что ограничивает способность агента выполнять многошаговые кросс-модальные рассуждения и поиск. Для преодоления этих ограничений мы предлагаем Visual-Seeker — визуально-нативный мультимодальный агент глубокого поиска, основанный на активном визуальном рассуждении. Вместо того чтобы рассматривать зрение как статический вход, наш агент активно уделяет внимание мелкозернистым визуальным деталям, динамически собирая визуальные свидетельства на протяжении всего процесса поиска. Для раскрытия его визуально-нативного потенциала мы разрабатываем конвейер данных активного визуального рассуждения и синтезируем 5 тысяч высококачественных мультимодальных траекторий для обучения модели. Обширные эксперименты демонстрируют передовую производительность на пяти сложных эталонных тестах мультимодального поиска, превосходя даже несколько проприетарных моделей, что подтверждает надежное визуально-нативное рассуждение и поиск в реальных веб-средах. Код и данные доступны по адресу: https://github.com/ZhengboZhang/Visual-Seeker.
Создание условий, при которых крупные языковые модели (LLM) глубоко забывают конкретные знания и ценности, не жертвуя при этом общими возможностями, остается ключевой проблемой в области разучения. Однако текущие методы легко обращаются вспять с помощью дообучения или запросов с несколькими примерами, что указывает на поверхностный характер такого забывания. Мы выявляем коренную причину этого. Существующие методы нацелены на представления, общие как для сохраняемого набора данных, так и для подпространства, восстанавливаемого атакующим через дообучение, что делает разучение одновременно разрушительным для общих возможностей и легко обратимым. Мы предлагаем RepSelect (Selectivity of Representations — избирательность представлений), который изолирует представления, специфичные для забываемого набора, путем подавления главных компонент градиентов весов перед каждым обновлением, сохраняя общие возможности нетронутыми и ограничивая то, что может быть восстановлено дообучением. Мы проводим оценку по двум категориям забывания — знаниям о биоопасностях и склонностям к оскорбительному поведению — и по четырем семействам моделей, охватывающим плотные архитектуры и архитектуры со смесью экспертов (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). По сравнению с пятью популярными базовыми методами (GradDiff, NPO, SimNPO, RMU, UNDIAL), RepSelect обеспечивает в 4–50 раз большее снижение точности ответов после повторного обучения, чем самый сильный базовый метод, и демонстрирует почти идеальную устойчивость к атакам с помощью запросов с несколькими примерами. Таким образом, нацеливание на избирательные представления является важным шагом на пути к глубокому и надежному забыванию в LLM.
Могут ли большие языковые модели (LLM) понимать и рассуждать о квантовых операторах? Несмотря на свои выдающиеся способности в математике и символьных рассуждениях, LLM остаются принципиально невосприимчивыми к квантовым представлениям, таким как унитарные матрицы. В данной работе мы делаем шаг к преодолению этого разрыва, предлагая подход, который отображает унитарные операторы в латентное пространство LLM, обеспечивая унифицированное моделирование квантовых и лингвистических входных данных. Мы реализуем эту идею на примере синтеза схем Клиффорд+T над набором вращательных вентилей Паули, где наша модель достигает результатов, сопоставимых с современными методами, и демонстрирует устойчивое масштабирование с обучающими данными без признаков насыщения. Наш подход дополнительно позволяет осуществлять синтез, управляемый естественным языком, что даёт возможность задавать ограничения на вентили, не встречавшиеся во время обучения, непосредственно на естественном языке. Эта работа указывает путь к созданию фундаментальных моделей, осведомлённых о квантовой механике, которые могут интуитивно интерпретировать и рассуждать о квантовых операциях, что может иметь более широкие последствия для квантовой компиляции и открытия алгоритмов.
Кодировщики изображений для поиска обычно обучаются с использованием меток классов: каждая обучающая пара сводится к скаляру, который равномерно раздвигает или сближает эмбеддинги, как будто каждый визуальный признак либо различается, либо совпадает. Мультимодальная большая языковая модель (MLLM), получая ту же пару, может сформулировать эти признаки и использовать их для прогнозирования того, относятся ли изображения к одному классу. Мы предлагаем SAGA — фреймворк, который преобразует это основанное на языке, учитывающее признаки восприятие в обучающий сигнал для самого кодировщика. В частности, мы используем групповую относительную оптимизацию политики (GRPO) для вознаграждения MLLM за правильные прогнозы на основе токенов кодировщика изображений. Поскольку правильные прогнозы требуют, чтобы эти токены выявляли конкретные признаки, которые различаются или совпадают в паре, градиент побуждает кодировщик кодировать их, заменяя единообразный скаляр на уровне пары на супервизию с разрешением по признакам. Вспомогательная функция потерь дистилляции внимания привязывает эмбеддинг кодировщика к токенам, на которые обращала внимание MLLM, а стандартная функция потерь метрического обучения формирует геометрию эмбеддинга для поиска по ближайшим соседям. MLLM остается замороженной на протяжении всего процесса и отбрасывается при инференсе, что соответствует стоимости развертывания базового метода метрического обучения. SAGA улучшает показатель Recall@1 на 3–6 пунктов по сравнению с современными базовыми методами на наборах данных CUB-200-2011, Cars-196, FGVC-Aircraft и iNaturalist Aves в задаче нулевого поиска изображений.
Референс-управляемая генерация (например, композиция объектов, кастомизация) в последнее время значительно прогрессировала, однако текущие конвейеры имеют фундаментальное ограничение: высокоразрешающее референсное изображение (HRRI) с центрированным объектом, предоставленное пользователем, подвергается понижающей дискретизации до фиксированного низкого разрешения (LR) перед подачей в модель, в результате чего тонкие детали отбрасываются ещё до того, как выходной результат будет получен. Дополнительно этап генерации вносит собственные артефакты (например, искажение идентичности) поверх данных потерь. Существующие методы референс-управляемого улучшения сгенерированного контента (RefGCR) могут исправлять часть этих артефактов, но всё ещё работают в домене низкого разрешения; методы референс-управляемого суперразрешения (RefSR) восстанавливают разрешение, но предполагают искажения, свойственные естественным изображениям, и игнорируют распределение артефактов генеративных конвейеров. Для устранения обоих пробелов в единой постановке мы вводим новую задачу: референс-управляемое суперразрешение и улучшение сгенерированного контента (RefGC-SR²), в которой исходное HRRI повторно используется на этапе постобработки для одновременного восстановления утерянных деталей, исправления генеративных артефактов и повышения разрешения выходного изображения. Мы создали первый конвейер генерации репрезентативных триплетов реальных данных для этой задачи RefGC-SR², обучив генератор с условием на диптих синтезировать парные некачественные опорные изображения, которые не могут быть получены с помощью предварительно обученных публичных моделей. Далее мы представляем частотно-чувствительный диффузионный трансформер для RefGC-SR², который выборочно внедряет тонкие детали из HRRI, одновременно удаляя генеративные артефакты. Обширные эксперименты показывают, что наша модель RefGC-SR² успешно (i) восстанавливает идентичность объекта с высокой точностью относительно референса и (ii) восстанавливает детали высокого разрешения, так что итоговый результат обладает значительно более высоким качеством и практической пригодностью по сравнению с существующими базовыми методами RefGCR и RefSR.
Генерация реалистичного человекоподобного движения на основе сценовых изображений и текста включает как низкочастотную семантику поз, так и высокочастотную физическую динамику. Однако многие существующие методы токенизируют движение с помощью единого общего кодового словаря, вынуждая разнородные сигналы движения попадать в одно и то же пространство квантования. Наш частотный анализ данных о движениях человека выявляет явное несоответствие между квантованием с единым кодбуком и статистикой движения: пять коэффициентов дискретного косинусного преобразования (ДКП) захватывают 93% энергии положения суставов, но лишь 37% энергии скорости суставов, что может смещать квантование в сторону статистики поз и недостаточно представлять высокочастотные компоненты скорости. Вторая задача заключается в адаптации стандартной авторегрессионной модели для эффективного моделирования высокочастотных физических сигналов в последовательностях движений. Поэтому мы предлагаем DSFT — двухпотоковый частотный токенизатор, который разделяет движение на базовый и физический потоки и сжимает их независимо с помощью усечения ДКП и BPE. Кроме того, мы представляем MotionVLA — модель на основе Qwen3.5, которая размещает базовые и физические токены в единой последовательности, где физические токены предсказываются после базовых токенов. Эксперименты на наборах данных HumanML3D и MBench показывают, что, несмотря на использование легковесной основы с 2 миллиардами параметров, MotionVLA сокращает разрыв в разнообразии (Diversity gap) по сравнению с реальными данными более чем на 50% на HumanML3D и улучшает согласованность движения с условием (Motion-Condition Consistency) на 3,8% на MBench, что подтверждает эффективность частотно-осознанного двухпотокового разделения как формы для авторегрессионной генерации движения. Код: https://github.com/AIGeeksGroup/MotionVLA. Сайт: https://aigeeksgroup.github.io/MotionVLA.
Дезагрегированные архитектуры вывода физически разделяют фазы предзаполнения и декодирования на отдельные пулы GPU, создавая конкурирующие «агенты», которые делят фиксированный бюджет оборудования. Мы представляем, насколько нам известно, первый формальный теоретико-игровой анализ этой архитектуры, используя NVIDIA Dynamo в качестве конкретного примера. Мы моделируем дезагрегированное обслуживание как три связанные игры: ресурсную игру двух игроков между пулами предзаполнения и декодирования, эгоистическую игру кэширования в иерархическом KV-кеше и игру перегрузки с положительными внешними эффектами для маршрутизации запросов. Последние две мы эмпирически подтверждаем; ресурсная игра P/D рассматривается аналитически (раздел 9.2). Мы характеризуем, как насыщение GPU вызывает переходы между режимами, которые изменяют структуру выигрыша игры: ниже насыщения эгоистичное поведение имеет ограниченную цену анархии (PoA); при насыщении сверхлинейная задержка и внешние эффекты кэша увеличивают нашу эмпирическую оценку PoA-шляпка (определенную в разделе 6.4). На основе этого анализа мы разрабатываем адаптивный контроллер, который в реальном времени обнаруживает переходы насыщения и соответствующим образом корректирует параметры маршрутизации, переходя от использования привязки к кэшу к балансировке нагрузки и избежанию перегрузок. Мы реализуем нашу структуру на кластере из трех узлов NVIDIA B200, работающем с Dynamo и двумя моделями, Nemotron-4-340B (TP=8, полноузловые воркеры с межузловыми KV-передачами через InfiniBand) и Llama-3.1-70B (TP=4), и обнаруживаем ту же трехрежимную структуру PoA-шляпки с той же первой точкой сетки после колена (C=128) для обеих моделей. Адаптивная маршрутизация переводит каждую модель в лучшую рабочую точку. Наш самый сильный результат получен на топологии 1P/5D модели 70B, где PoA-шляпка снижается в 3,1 раза (с 66,4 до 21,5) в фазе насыщения при снижении пропускной способности на 13%. На топологии 1P/2D модели 70B PoA-шляпка снижается в 2,2 раза, а P99 времени до первого токена (TTFT) — в 7,6 раза (см. раздел 8.5).
Многоагентные системы LLM разделяют состояние через хранилища памяти, векторные индексы и реестры инструментов. Мы моделируем такое разделение как долгоживущие операции чтения-генерации-записи в рамках детерминированной семантики генерации — режима, обеспечиваемого механизмами долговечных вычислений посредством детерминированного воспроизведения — и формализуем четыре аномалии параллелизма в TLA+: устаревшая генерация, фантомный инструмент, причинно-следственный каскад и переупорядочивание эффектов инструмента, структурные аналоги классических аномалий изоляции, каждая с контрпримером в TLC. Решётка исключений для этих аномалий тривиальна; вклад заключается в механически верифицированной реализуемости и строгом разделении одной максимальной цепи внутри неё, L_0 subsetneq cdots subsetneq L_4, которая, насколько нам известно, является первой иерархией согласованности для таких сред выполнения, проверенной на машине. Разработка 274 обязательств Verus (ноль предположений, ноль допущений; база доверия: две структурные аксиомы и соответствие взаимного исключения) доказывает, что детекторы корректны и полны относительно спецификаций, а каждая среда выполнения — своё множество избегания. Три развёрнутые среды выполнения на Rust реализуют L0-L1 (пессимистическая блокировка, сериализуемая изоляция снимков, SI по умолчанию), каждая верифицирована относительно устаревшей генерации и уточнена до своей машины состояний; L2-L4 верифицированы в режиме выполнения с двойниками предотвращения, не требующими зависимостей (A3, A6, A2: 0/1000 против 1000/1000), а L2 работает в реальном времени для трёх семейств моделей (A3 предотвращено во всех 120 отозванных сеансах). Мы воспроизводим тихую потерю обновления в deer-flow от ByteDance, формализуя её исправление как верифицированное уточнение с L_0 до L_1, и демонстрируем переупорядочивание эффектов инструмента в ToolNode из LangGraph на неизменённом выходе, устранённое с помощью секвенсора порядка фиксации L3. Вкладом являются верифицированный детектор, уточнения и артефакты реализуемости; явления и решётка являются классическими.