Ежедневно отобранные исследовательские статьи по ИИ с переводами
Бенчмарки репозиториев на уровне кода, такие как SWE-bench, привели к быстрому росту возможностей агентов кодирования. Однако они обычно рассматривают задачи кодирования как целостную бинарную проблему предсказания (например, решена или не решена), пренебрегая тонкими способностями агентов, такими как понимание репозитория, извлечение контекста, локализация кода и диагностика ошибок. В данной статье мы представляем SWE-Explore — бенчмарк, который изолирует оценку исследования репозитория, критически важной способности агентов кодирования. Получив репозиторий и задачу (issue), SWE-Explore предлагает исследователю (explorer) вернуть ранжированный список релевантных областей кода в рамках фиксированного бюджета строк. SWE-Explore охватывает 848 задач на 10 языках программирования и 203 репозиториях с открытым исходным кодом. Для каждого экземпляра мы выводим построчную наземную истину (line-level ground truth) на основе независимых траекторий агентов, которые успешно решили ту же задачу, дистиллируя конкретные области кода, которые их решения фактически использовали. Мы оцениваем исследование по измерениям покрытия, ранжирования и эффективности контекста, показывая, что эти метрики сильно коррелируют с последующим поведением исправления. В широком наборе методов извлечения, общих агентов кодирования и специализированных локализаторов мы обнаруживаем, что агентные исследователи (agentic explorers) образуют чёткий уровень выше классических методов извлечения. В то время как локализация на уровне файлов уже сильна для современных методов, покрытие на уровне строк и эффективное ранжирование остаются ключевыми осями, дифференцирующими передовые исследователи.
Современные системы ИИ демонстрируют высокие результаты на широком спектре бенчмарков, однако эти достижения не привели к экономически значимому внедрению во многих профессиональных областях. Мы утверждаем, что этот разрыв во многом обусловлен проблемой оценки: широко используемые бенчмарки не предусматривают устойчивого измерения производительности на реальных и экономически ценных рабочих процессах. В данной статье представлен «Финальный экзамен агентов» (Agents' Last Exam, ALE) — бенчмарк, предназначенный для оценки ИИ-агентов на долгосрочных, экономически ценных реальных задачах с верифицируемыми результатами. Разработанный совместно с более чем 250 отраслевыми экспертами, ALE охватывает нефизические отрасли, определенные со ссылкой на O*NET / SOC 2018 (федеральную таксономию профессий США). Бенчмарк организован на основе таксономии задач, включающей 55 подполей, сгруппированных в 13 отраслевых кластеров, охватывающих более 1000 задач. Текущие результаты показывают, что самый сложный уровень еще далек от насыщения: для основных конфигураций обвязки и базовых архитектур средний показатель полного прохождения составляет 2,6%. ALE задуман как живой бенчмарк: его пул задач непрерывно растет по мере добавления новых рабочих процессов и отраслей. В более широком смысле ALE предназначен не просто как очередная таблица лидеров, а как инструмент для преодоления разрыва между успехом на бенчмарках и влиянием, значимым для ВВП.
Дистилляция по политике (OPD) всё чаще используется для улучшения рассуждений больших языковых моделей, однако её динамика обучения остаётся плохо изученной. Мы характеризуем траекторию обновлений OPD в пространстве параметров и сравниваем её с контролируемой тонкой настройкой (SFT) и обучением с подкреплением с верифицируемыми наградами (RLVR). Набор диагностик в пространстве параметров последовательно помещает OPD в расслабленный режим отклонения от главных направлений: по сравнению с SFT, её обновления затрагивают меньше весов и сильнее избегают главных направлений, в то время как по сравнению с RLVR они остаются менее жестко ограниченными. Помимо этой статической локализации, OPD демонстрирует блокировку подпространства: её кумулятивные обновления быстро входят в узкий низкоразмерный канал. Ограничение обучения подпространством обновлений, сформированным на ранних этапах обучения, сохраняет производительность OPD, но существенно ухудшает SFT, что указывает на то, что заблокированное подпространство функционально достаточно для OPD. Контрольные эксперименты дополнительно показывают, что разреживание токенов обновления и перенос генерации траекторий вне политики сохраняют динамику ранга, тогда как смешивание целевой функции OPD с RLVR изменяет её. В целом, эти результаты указывают на то, что OPD является не просто промежуточной точкой между SFT и RLVR, а индуцирует собственную геометрию обновлений в пространстве параметров.
Агентные системы все чаще используют текстовые навыки для кодирования повторно используемых процедур, однако внедрение этих навыков в промпт на каждом шаге приводит к значительным накладным расходам контекста и раскрывает содержание навыков в виде открытого текста. Мы представляем LatentSkill — фреймворк, преобразующий текстовые навыки в подключаемые адаптеры LoRA с помощью предобученной гиперсети. LatentSkill хранит знания навыков в пространстве весов, а не в пространстве контекста, устраняя необходимость в токенах навыков на каждом шаге, сохраняя при этом модульную загрузку, масштабирование и композицию. На наборах данных ALFWorld и Search-QA LatentSkill превосходит соответствующий базовый метод с контекстными навыками, используя при этом значительно меньше токенов предзаполнения: улучшение успешности на ALFWorld составляет 21,4 и 13,4 пункта для известного и неизвестного разделов соответственно при сокращении токенов предзаполнения на 64,1%, а точное совпадение на Search-QA улучшается на 3,0 пункта при снижении накладных расходов на токены навыков на 72,2%. Дальнейший анализ показывает, что сгенерированные LoRA-навыки образуют структурированную семантическую геометрию, могут точно контролироваться с помощью коэффициента масштабирования LoRA и компоноваться посредством арифметики в пространстве параметров при согласовании компонентов навыков. Эти результаты свидетельствуют о том, что навыки в пространстве весов обеспечивают эффективную, модульную и менее открытую основу для расширения возможностей LLM-агентов.
Видеомировые модели, поддерживающие трехмерную пространственную согласованность между сгенерированными кадрами, обычно опираются на явную память облаков точек, построенную в RGB-пространстве. Такая конструкция является как вычислительно затратной (требуя повторного рендеринга и VAE-кодирования), так и по своей сути с потерями, поскольку проход через пиксельное пространство отбрасывает богатые признаки обученного латентного представления. В данной работе мы вводим латентную пространственную память для видеомировых моделей — постоянный 3D-кэш, который хранит информацию о сцене непосредственно в латентном пространстве диффузии, избегая реконструкции в пиксельном пространстве. Основываясь на этом, мы предлагаем Mirage — фреймворк латентной пространственной памяти, который строит память путем подъема латентных токенов в 3D через обратное проецирование с глубиной и выполняет к ней запросы синтезом новых видов через прямой варпинг в латентном пространстве. Такая единая формулировка устраняет как потерю информации при реконструкции в пиксельном пространстве, так и вычислительную нагрузку повторного кодирования и рендеринга. Эксперименты показывают, что латентная пространственная память достигает ускорения сквозной генерации видео до 10,57 раз и снижения объема памяти до 55 раз по сравнению с явными 3D-базисами. Используя геометрический априор диффузионной модели, Mirage достигает передовых результатов по WorldScore и высокого качества реконструкции на RealEstate10K.
Хотя современные модели редактирования видео по текстовым запросам успешно справляются с элементарными задачами (например, перенос стиля, вставка объектов), реальные пользовательские запросы носят высококомпозиционный характер. Один запрос часто требует множества связанных изменений, таких как модификация субъектов, действий и ракурсов камеры, при строгом сохранении нерелевантного пространственно-временного контента. Существующие бенчмарки, ограниченные изолированными правками и грубыми глобальными метриками, не позволяют оценить, как модели справляются с подобными сложными рабочими процессами. Для устранения этого пробела мы представляем CoVEBench — композиционный бенчмарк редактирования видео, включающий 416 тщательно отобранных исходных видео, 626 инструкций по многоточечному редактированию и 9 990 детализированных пунктов проверки. Охватывая различные аспекты редактирования, CoVEBench оценивает модели как по соответствию инструкциям и качеству видео, определяемым MLLM (мультимодальными большими языковыми моделями), так и по автоматизированным метрикам видеокачества. Обширные эксперименты показывают, что композиционное редактирование остается серьезной проблемой: современные модели часто пропускают правки, нарушают ограничения сохранения или создают артефакты при одновременной обработке нескольких операций. CoVEBench предоставляет сложный диагностический тестовый полигон для продвижения редактирования видео в сторону реалистичных пользовательских сценариев.
Традиционные LLM загружают полный KV-кэш в память во время декодирования, что приводит к серьезному узкому месту в памяти GPU при обслуживании сверхдлинных контекстов. В этом отчете мы предлагаем Lookahead Sparse Attention (LSA) — новую парадигму вывода, работающую на основе Neural Memory Indexer, построенного на архитектуре DeepSeek-V4. Вместо пассивного внимания ко всем историческим токенам LSA упреждающе предсказывает будущие потребности контекста и сохраняет в памяти GPU только критически важные для запроса KV-чанки. Ключевой особенностью является то, что мы реализуем эту архитектуру с помощью стратегии раздельного обучения, не зависящей от бэкбона (backbone-free decoupled training strategy). Формулируя индексатор как стандартную двух-энкодерную архитектуру, мы обучаем его независимо с использованием стандартных фреймворков для обучения поиску, никогда не загружая массивную базовую модель в память GPU. Мы демонстрируем, что эта парадигма «меньше значит больше» значительно повышает эффективность обслуживания, одновременно действуя как эффективный денойзер внимания в задачах, полагающихся на долговременную глобальную память. В основных наборах тестов для длинных контекстов (например, LongBench-v2, LongMemEval и RULER) FM-DS-V4 сжимает средний физический объем KV-кэша до всего 13,5% от базового уровня с полным контекстом, при этом постоянно сохраняя или незначительно повышая точность на downstream-задачах (средний абсолютный прирост +0,6%). Важно отметить, что при экстремальных масштабах в 500K токенов FlashMemory сокращает накладные расходы физического KV-кэша более чем на 90%, не нарушая стабильности базовых способностей бэкбона к рассуждению.
Пространственное рассуждение является фундаментальной способностью мультимодальных больших языковых моделей (MLLM) для восприятия и взаимодействия с физическим миром. Однако существующие бенчмарки преимущественно опираются на пассивную оценку (например, статический VQA) или симулятор-специфические конвейеры, что не позволяет оценить общее интерактивное пространственное понимание. Мы представляем SpatialWorld — унифицированный бенчмарк, специально разработанный для оценки интерактивного пространственного понимания мультимодальных агентов в сложных задачах реального мира. Интегрируя восемь гетерогенных симуляционных бэкендов под единым протоколом, не зависящим от симулятора, SpatialWorld содержит 760 задач с аннотациями человека в различных доменах (например, бытовые рутины, путешествия, социальное сотрудничество). Агенты должны решать задачи в условиях частичной наблюдаемости только на основе зрения, активно собирая эгоцентрические визуальные свидетельства и выражая решения через единый текстовый интерфейс действий, естественный для MLLM. Для надежной оценки каждая задача включает начальное состояние, верифицированное человеком, эталонную траекторию и верификатор конечного состояния. Оценка 15 продвинутых агентов показывает, что надежное решение пространственных задач остается сложной задачей: сильнейшая модель GPT-5 достигает среднего уровня успешности задач (TSR) лишь 17,4%, в то время как ведущая модель с открытым исходным кодом Qwen-3.5 — 14,1%. Дальнейший анализ выявляет явное несоответствие между успешностью выполнения задач и эффективностью их исполнения, а также значительные вариации производительности в зависимости от предметной области. Эти узкие места в активном исследовании и долгосрочном планировании позиционируют SpatialWorld как строгий испытательный полигон для будущих пространственных агентов.
Мы исследуем, могут ли человеческие психометрические опросники служить надежными инструментами для характеристики и прогнозирования поведения LLM в повседневных пользовательских взаимодействиях. Мы анализируем восемь LLM с открытым исходным кодом, сравнивая их ценностные и личностные профили, полученные двумя различными методами: самоотчетами по шкале Ликерта в установленных опросниках (PVQ-40/21 и BFI-44/10) и вероятностями генерации ответов с ценностной нагрузкой на повседневные пользовательские запросы. Эти два профиля существенно расходятся. Внутренняя согласованность пунктов конструкта, часто приводимая как свидетельство стабильных диспозиций LLM, исчезает в вероятностях генерации. Мы объясняем этот разрыв тем, что явные лексические подсказки в пунктах установленных опросников позволяют моделям распознавать целевой конструкт и отвечать конгруэнтным, социально желательным образом, тогда как реалистичные пользовательские запросы таких подсказок не содержат. Кроме того, демографические промпты персоны смещают ответы моделей на человеческие опросники так, как это согласуется с реальными человеческими паттернами, но никаких подобных смещений не наблюдается в вероятностях генерации ответов на реалистичные пользовательские запросы, что демонстрирует их ограниченную способность симулировать поведение целевых демографических групп в реальных пользовательских взаимодействиях. В целом, наше исследование показывает, что человеческие психометрические опросники являются недостаточными инструментами для прогнозирования поведения LLM, и предлагает профилирование на основе генерации как более точный метод.
Мы представляем Echo-Memory — контролируемое исследование механизмов памяти в мир-моделях, обусловленных действиями. Такие модели генерируют многокадровые видео, исходя из первого кадра, текстового запроса и последовательности камера-действие, однако их ключевым недостатком часто оказывается именно память, а не локальный синтез изображения: после того как камера покидает сцену и возвращается, сцена или значимый объект могут незаметно измениться. Существующие архитектуры памяти трудно сопоставить, поскольку улучшения переплетаются с различиями в базовых моделях, обучении, поиске и оценке. Echo-Memory фиксирует интерфейс «действие→видео», варьируя только способ хранения и считывания истории генератором. На единой основе — диффузионной модели видео, оптимизаторе, представлении камера-действие, сэмплере и процедуре оценки — мы сравниваем необработанный контекст, память на основе сжатия, пространственные сводки с разными путями считывания и рекуррентность в пространстве состояний. Эта выровненная матрица разделяет четыре обычно смешиваемых аспекта: ёмкость, сжатие, считывание и рекуррентность. Оценка памяти проводится по трёхзвеньевому протоколу: качество воспроизведения, повторный проход по циклу внутри домена и зондирование возврата в открытом домене. Звенья часто расходятся, показывая, что точность воспроизведения не является достаточным показателем для запоминания мира. Следуют три вывода. Необработанный контекст — сильный базовый уровень по ёмкости и значительно лучше улучшает возврат в открытом домене, чем показатели воспроизведения. Компактность — небесплатная замена ёмкости: агрессивные пространственные и гибридные сжатые памяти теряют значимые свидетельства, необходимые для возврата. Наконец, блочная рекуррентность в пространстве состояний оказывается сильнейшим механизмом возврата в открытом домене в нашей матрице, показывая, что структура неявной памяти так же важна, как и само решение её использовать. Эти результаты предлагают компактный протокол для изучения памяти в мир-моделях действий, выходящий за рамки изолированных показателей воспроизведения.
Вывод (инференс) языковых моделей с длинным контекстом ограничен объемом памяти, так как KV-кэш растет с увеличением длины контекста. Современные методы сжатия KV-кэша не оправдывают ожиданий: они либо существенно ухудшают качество модели, либо требуют значительного времени и вычислительных ресурсов для сжатия одного длинного промпта. Кроме того, многие методы требуют, чтобы входные данные помещались в окно контекста целевой модели, и обычно несовместимы с современными производственными движками инференса. Компрессоры типа «кодировщик-декодировщик», которые преобразуют длинную последовательность токенов в более короткую последовательность скрытых эмбеддингов, потребляемых декодировщиком, в принципе являются привлекательной альтернативой. Однако существующие подходы неконкурентоспособны по сравнению со сжатием KV-кэша на границе точности и эффективности. В данной работе мы пересматриваем сжатие на основе архитектуры «кодировщик-декодировщик» и устраняем этот разрыв. Сначала мы проводим поиск архитектуры, предварительно обучая множество вариантов с нуля, чтобы определить наилучший способ проектирования и обучения компрессоров данного типа. Руководствуясь полученными результатами, мы последовательно предварительно обучаем семейство моделей с кодировщиком на 0,6 миллиарда параметров и декодировщиком на 4 миллиарда параметров на более чем 350 миллиардах токенов каждая, с коэффициентами сжатия 1:4, 1:8 и 1:16. Мы представляем Latent Context Language Models (LCLMs) — семейство компрессоров, улучшающих границу Парето по производительности на общих задачах, скорости сжатия и пиковому использованию памяти. Мы демонстрируем, что LCLM служат эффективными магистралями для агентов с длительным горизонтом планирования, позволяя агенту бегло просматривать сжатый длинный контекст и адаптивно расширять релевантные сегменты по запросу.
Агенты на основе моделей "зрение-язык" (VLM) всё чаще развёртываются в интерактивных игровых средах. Однако существующие игровые бенчмарки для VLM-агентов, как правило, сообщают единственный показатель первой попытки для каждой пары (агент, игра), ориентируются на одиночный режим Solo и лишены унифицированных протоколов для сопоставимой оценки разнородных классов агентов (коммерческих VLM, VLM с открытым весом и специализированных игровых политик). Мы восполняем эти пробелы с помощью OmniGameArena — бенчмарка реального времени, включающего двенадцать недавно созданных игр на Unreal Engine 5 (семь в режиме Solo, три в PvP и две в Coop) с едиными интерфейсами действий, а также с помощью Кривой динамики улучшений (IDC) — обвязки для агентской рефлексии, в которой LLM-рефлектор, использующий инструменты, автономно уточняет ограниченный по объёму навыковый промпт в течение нескольких раундов. В отличие от показателей лидерборда "холодного старта", IDC предоставляет два дополнительных наблюдаемых параметра для каждой пары (агент, игра): как показатель изменяется по раундам рефлексии и как усвоенный навык ведёт себя на отложенных вариантах задач. Мы сообщаем эти наблюдаемые параметры для двенадцати VLM-агентов на лидерборде "холодного старта" и для четырёх лучших агентов в условиях IDC.
Линейное управление активацией приобрело популярность как простой и эмпирически эффективный способ контроля поведения языковых моделей. В последнее время были предложены сферические парадигмы управления, направленные на преодоление ограничений аддитивных вмешательств, что часто мотивируется предположением, что норма скрытых состояний не несет информации, связанной с концептами. В данной работе мы пересматриваем это предположение с помощью контролируемого эмпирического исследования, предназначенного для разграничения ролей угловых и радиальных компонентов. Мы показываем, что методы управления различаются в основном тем, как они связывают два геометрических эффекта: изменение углового согласования токена с направлением концепта и изменение нормы его скрытого состояния. На примере семи языковых моделей мы обнаруживаем, что концепты представлены преимущественно в угловой структуре, что подтверждает мотивацию сферических методов, однако норма остается важной для стабильности и последующих эффектов управления. Наши результаты объясняют, почему вмешательства с одинаковым эффектом на уровне концептов могут вести себя по-разному, и предполагают, что управление активацией должно параметризоваться интерпретируемыми угловыми и радиальными компонентами вмешательства, а не единым аддитивным коэффициентом, запутывающим эти два эффекта.
Агенты на основе больших языковых моделей (LLM) все чаще полагаются на внешние условия вывода: промпты, инструменты, память, стандартные операционные процедуры (SOP), навыки и обратную связь от среды исполнения (harness). Эти ресурсы позволяют улучшить выполнение задач без изменения весов модели, но зачастую они корректируются путем эвристической рефлексии или повторного использования наблюдаемых успехов и неудач, как если бы одни лишь частоты были надежным свидетельством. Мы представляем Bayesian-Agent — нативную и кросс-средовую платформу, которая рассматривает повторно используемые навыки и SOP как гипотезы о том, успешно ли замороженная модель справится с задачей при заданном промпте, контексте и среде исполнения. Bayesian-Agent записывает верифицированные свидетельства траекторий, поддерживает категориальное апостериорное распределение для каждого навыка, обусловленное признаками, и отображает состояние апостериорного распределения в проверяемые действия, такие как патч, разделение, сжатие, удаление и исследование. Промпты, обращенные к модели, получают исполняемые ограничения и патчи для режимов отказов, а сводки апостериорного распределения остаются доступными для аудита. При использовании deepseek-v4-flash инкрементальное исправление повышает показатели SOP-Bench с 80% до 95%, Lifelong AgentBench с 90% до 100% и RealFin-Bench с 45% до 65%. Мы также оцениваем нативный бэкенд Bayesian-Agent и опциональные бэкенды GenericAgent, mini-swe-agent и Claude Code. Результаты включают положительные, отрицательные, насыщенные сценарии, а также исследования конкретных случаев, что позволяет предположить, что эволюцию навыков агента лучше всего рассматривать как оптимизацию среды исполнения, направляемую апостериорным распределением, а не как некалиброванное накопление промптов. Исходный код доступен по адресу https://github.com/DataArcTech/Bayesian-Agent.
Потоковое видеовосстановление (VR) для прямых трансляций требует высокого разрешения выходных данных при строгих ограничениях на задержку на кадр. Существующие одношаговые диффузионные модели VR остаются сложными для развертывания на потребительских GPU из-за двух основных узких мест: квадратичное пространственное внимание при высоких разрешениях и накладные расходы по задержке и памяти, связанные с большими видеоавтоэнкодерами. Мы представляем SwiftVR — потоковый одношаговый генеративный фреймворк VR, который сокращает оба узких места в рамках каузального посегментного протокола. Для внимания применяется самовнимание со сдвинутыми окнами без масок, которое собирает каждое пространственное окно в плотный тензор с помощью детерминированной индексации, сохраняя все вызовы внимания на пути плотного масштабированного скалярного произведения внимания без масок, циклических сдвигов, дополнений или аппаратно-зависимых разреженных ядер. Поскольку SwiftVR использует только стандартные вызовы плотного SDPA, обученная модель переносится на потребительские GPU без дообучения или пользовательских ядер. Для автоэнкодирования легковесный автоэнкодер, ориентированный на восстановление, обеспечивает быстрый посегментный декодинг при сохранении качества реконструкции. На одном H100 SwiftVR поддерживает 31 FPS при разрешении 2560×1440 и 14 FPS при разрешении 3840×2160, тогда как все сравниваемые базовые диффузионные модели VR превышают лимит памяти при 4K. На потребительском RTX 5090 SwiftVR достигает 26 FPS при разрешении 1920×1080. Насколько нам известно, SwiftVR является первой генеративной моделью VR, обеспечивающей потоковую передачу 1080p в реальном времени на потребительском GPU, при этом достигая высокого безэталонного перцептуального качества с меньшими затратами на инференс. Проект доступен по адресу https://h-oliday.github.io/SwiftVR.
Модели «мир-действие» стали перспективной парадигмой для роботизированных манипуляций, совместно моделируя визуальную динамику сцены и действия для внедрения физических априорных знаний в обучение политик. Однако существующие модели «мир-действие» связывают прогнозирование мира и выполнение действий с одинаковым временным разрешением, вынуждая ветвь мира моделировать краткосрочные изменения кадров, которые избыточны и слабо информативны. Мы предполагаем, что жесткое связывание прогнозирования мира и выполнения действий с одним временным ритмом может недоиспользовать потенциал видеоветви для воплощенного управления. Поэтому мы предлагаем AHA-WAM — асинхронную модель «мир-действие» с адаптивным горизонтом, построенную на архитектуре с двумя диффузионными трансформерами (DiT), которая перестраивает моделирование «мир-действие» вокруг этой временной асимметрии. AHA-WAM реализует видеотрансформер DiT в качестве низкочастотного планировщика мира, который поддерживает скользящую память ключ-значение по прошлым наблюдениям и предоставляет повторно используемый послойный латентный контекст, кодирующий долгосрочную эволюцию сцены, в то время как высокочастотный трансформер DiT действий выполняет короткие блоки действий в замкнутом контуре, запрашивая этот контекст через послойное совместное внимание. Для поддержки асинхронного выполнения мы вводим обучение со смещением, адаптируемым по горизонту, и маршрутизацию видеоконтекста, направляемую наблюдениями (OVCR), которые совместно позволяют эксперту действий использовать долгосрочный контекст мира, оставаясь при этом отзывчивым к состоянию выполнения в реальном времени без повторного запуска видеотрансформера DiT. Эксперименты на RoboTwin и задачах манипуляции в реальном мире показывают, что AHA-WAM достигает передовых результатов без какого-либо предварительного обучения на роботизированных данных, достигая 92,80% среднего успеха на RoboTwin и 78,3% успеха на 4 задачах реального мира, а также обеспечивая управление в замкнутом контуре с частотой 24,17 Гц с ускорением в 4,59 раза по сравнению с Fast-WAM.
Whisper — широко используемая модель автоматического распознавания речи (ASR) — известна подверженностью галлюцинациям: порождению связных транскрипций для неречевого аудиосигнала, полностью не связанных с входными данными. Мы исследуем возможность обнаружения и смягчения галлюцинаций с помощью внутренних представлений Whisper. Мы извлекаем активации аудиоэнкодера и оцениваем два пространства представлений: необработанные активации Whisper и латентные признаки разреженного автоэнкодера (SAE). Мы показываем, что оба пространства кодируют линейно разделимую информацию, связанную с галлюцинациями, причем дискриминативная способность сосредоточена в разреженном подмножестве признаков и возрастает по мере углубления в слои энкодера. Мы предлагаем две стратегии управления: управление в пространстве активаций и управление в пространстве латентных признаков SAE. Управление на основе SAE снижает частоту галлюцинаций с 72,63% до 14,11% для Whisper small и с 86,88% до 27,33% для Whisper large-v3 на полном наборе неречевых тестовых данных, демонстрируя незначительное ухудшение показателя WER на речевых данных, приближаясь к производительности методов, основанных на тонкой настройке.
Мы представляем DEI (Diversity in Evolutionary Inference) — распределённый фреймворк для поиска с качественным разнообразием (QD), в котором гетерогенные большие языковые модели (LLM) назначаются в качестве операторов мутации на одноранговых узлах, общающихся с помощью неблокирующих коллективных операций. В отличие от однородного параллельного поиска, который реплицирует индуктивные смещения единственной модели на всех рабочих узлах, DEI рассматривает уникальный креативный приор каждой LLM как дополнительный источник поведенческой новизны. Расширяя фреймворк «Цифровая Красная Королева» с помощью DEI, узлы обмениваются локальными оптимальными решениями в конце каждого раунда, чтобы сформировать популяцию следующего раунда. Это создаёт межмодельное состязательное давление, обеспечивающее устойчивость, превосходящую внутримодельную самоигру. При оценке в области Core War — соревновательном бенчмарке по программированию, в котором программы-воины Redcode сражаются внутри симулированной машины — гетерогенный ансамбль из четырёх узлов (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2 и Claude Haiku 4.5) достигает на 124% более высокого показателя QD для объединённого архива (45,90 против 20,46) и на 28% более высокого покрытия (80,6% ячеек против 63,0%) по сравнению с одноузловым базовым вариантом при равном общем бюджете вызовов LLM. Гетерогенный ансамбль также превосходит гомогенный ансамбль с тем же бюджетом по показателю QD, покрытию и обобщаемости решений на отложенных данных для всех четырёх семейств моделей. Эти результаты впервые эмпирически демонстрируют, что разнообразие моделей, а не просто параллелизм, является ключевым фактором выигрыша в распределённом поиске QD на основе LLM.
Модели вознаграждения (RM) предоставляют критически важные сигналы обратной связи для пост-тренировки больших языковых моделей (LLM), особенно в конвейерах усиленной точной настройки (RFT) и обучения с подкреплением (RL). Однако текущая оценка вознаграждения опирается на разнородные критерии, такие как основанные на правилах верификаторы, эталонные истинные значения, процедурные контрольные списки и сложные рубрики, где единый механизм для интеграции всех типов свидетельств остается неизученным. В связи с этим мы предлагаем Skill Reward Model (Skill-RM) — единую структуру, которая переопределяет моделирование вознаграждения как выполнение повторно используемого навыка оценки вознаграждения. Рассматривая вычисление вознаграждения как структурированную агентную задачу, Skill-RM предоставляет последовательный интерфейс для координации разнородных ресурсов, динамически выбирая и агрегируя свидетельства, адаптированные к конкретным требованиям каждого входа. Такой подход позволяет модели вознаграждения выйти за рамки статической оценки, обеспечивая согласованность и прозрачность в различных задачах. Обширные эксперименты на бенчмарках вознаграждения и прикладных задачах, включая выбор лучшего из N и обучение с подкреплением, показывают, что Skill-RM последовательно превосходит традиционные базовые модели-судьи. Наши результаты свидетельствуют о том, что Skill-RM не только предоставляет единое решение для моделирования вознаграждения, но и достигает превосходной производительности за счет стратегической и динамической координации свидетельств. Код доступен по адресу https://github.com/Qwen-Applications/Skill-RM.
Хотя омни-модальные большие языковые модели (Omni-modal Large Language Models, OLLMs) продемонстрировали впечатляющие возможности в совместной обработке аудио- и визуальных потоков, их способность строго следовать сложным, многогранным пользовательским инструкциям остается в значительной степени неизученной. Существующие бенчмарки в основном сосредоточены на целостном понимании видео или следовании текстовым инструкциям, не учитывая сложное взаимодействие между модальностями и пользовательскими ограничениями. Для заполнения этого пробела мы представляем OmniCap-IF — первый всеобъемлющий бенчмарк, специально разработанный для оценки способности следовать инструкциям в омни-модальном описании. OmniCap-IF включает систематическую основу, которая оценивает описания по двум измерениям: корректность формата и корректность содержания. Наш бенчмарк охватывает 50 различных типов ограничений по чисто визуальным, чисто аудиальным и аудио-визуальным модальностям, одновременно интегрируя временную привязку (Temporal Grounding) для оценки пространственно-временной точности. Обширные оценки ведущих моделей на 1 920 высококачественных образцах выявили значительные различия в производительности. Кроме того, наш анализ обнаруживает критический «компромисс между форматом и содержанием», демонстрируя, что увеличение сложности форматирования напрямую снижает способности моделей к омни-модальному рассуждению. Наконец, для продвижения этой области мы подготовили набор данных для настройки инструкций объемом 54K — OmniCap-IF-54K, и представляем OmniCaptioner-IF, который достигает заметных улучшений как в следовании сложным инструкциям, так и в общей производительности омни-модального описания.
Muon повышает эффективность обучения примерно в два раза по сравнению с Adam при обучении больших языковых моделей, однако локальный геометрический источник этого преимущества остаётся неясным. Наша работа делает первый шаг к демистификации превосходства Muon над Adam с точки зрения кривизны. Во-первых, мы применяем аппроксимацию второго порядка Тейлора к ландшафту обучения и показываем, что Muon обеспечивает большее уменьшение потерь за один шаг, чем Adam, при одинаковых валидационных потерях. Оба оптимизатора имеют сопоставимые выигрыши первого порядка, но Muon последовательно несёт меньший штраф за кривизну второго порядка. Во-вторых, мы разлагаем этот штраф за кривизну на квадрат нормы обновления и нормализованную направленную остроту (Normalized Directional Sharpness, NDS). Мы обнаруживаем, что нормы обновления у Muon и Adam сравнимы, поэтому меньший штраф за кривизну у Muon обусловлен более низкой NDS, а не масштабом обновления. В-третьих, мы изучаем, как обучающие данные и структура модели формируют преимущество Muon по NDS. Используя данные, сгенерированные вероятностной контекстно-свободной грамматикой Зипфа (Zipf-PCFG) с контролируемым дисбалансом, мы показываем, что дисбаланс данных усиливает преимущество Muon по NDS перед Adam. Дальнейшее разложение на внутрислойную и межслойную составляющие показывает, что на средних и поздних этапах обучения более низкая NDS Muon в основном поддерживается меньшей внутрислойной кривизной. Помимо эмпирических данных, мы анализируем стилизованные квадратичные задачи с гетерогенной кривизной и выравниванием градиентов по направлению к модам с высокой кривизной. Мы доказываем, что Muon достигает меньшей средней NDS, чем градиентный спуск (GD), за счёт балансировки энергии обновления между группами кривизны; когда гетерогенность кривизны достаточно сильна, это также приводит к меньшим локальным квадратичным потерям после одинакового числа шагов.
Агенты глубокого исследования продемонстрировали выдающиеся способности в решении сложных задач информационного поиска, однако эта мощь требует значительных вычислительных затрат. Движимые парадигмами обучения, ориентированными на точность, современные модели применяют стратегии «грубой силы», характеризующиеся слепой зависимостью от инструментов и перформативным рассуждением — генерируя длинные, избыточные траектории, которые далеки от необходимых для решения поставленных задач, что приводит к неэффективным вызовам инструментов и чрезмерному расходованию токенов. Чтобы преодолеть эту ловушку неэффективности, мы предлагаем SlimSearcher — принципиальную структуру, расширяющую границу Парето между точностью и вычислительными затратами как на этапе контролируемой точной настройки (SFT), так и на этапе обучения с подкреплением (RL). На этапе SFT SlimSearcher использует Парето-эффективную фильтрацию для выделения траекторий, которые являются как успешными, так и экономичными, направляя модель к изначально осознающему эффективность поисковому поведению. В ходе RL мы вводим адаптивное вознаграждение с гейтингом (Adaptive Reward Gating) — динамический механизм формирования вознаграждения, оценивающий относительную эффективность использования инструментов и токенов в пределах выборки. Каскадируя эти адаптивные метрики эффективности со строгим гейтом корректности, наш подход позволяет избежать смещения краткости, связанного с абсолютными штрафами, и смягчает проблему «взлома вознаграждения». Многочисленные эксперименты на долгосрочных эталонных тестах, включая GAIA, BrowseComp и XBenchDeepSearch, показывают, что SlimSearcher сокращает среднее количество раундов вызова инструментов на 17–58% при сохранении или повышении точности.
Речевые большие языковые модели обычно ограничены голосовыми ответами, что сводит их пользовательские выходные данные лишь к тому, что можно произнести вслух, и подавляет текстово-ориентированные возможности, такие как генерация кода, структурированный анализ и многошаговые рассуждения в режиме реального времени, для задач, требующих постоянных, структурированных и проверяемых промежуточных результатов. Существующие работы улучшают речевые рассуждения или полнодуплексное переключение ролей, но по-прежнему рассматривают текст как скрытое промежуточное состояние или подчинённую модальность, а не как полноценный выходной канал. Мы предлагаем Listen-Write-Speak (LWS) — тексто-ориентированную трёхканальную парадигму, в которой одна авторегрессионная LLM непрерывно слушает аудио пользователя, записывает видимый свободный текст в качестве своего основного вывода и одновременно озвучивает ответ в реальном времени в рамках общего контекста каузального внимания. Это поведение реализуется исключительно через схему токенов, не требуя архитектурных изменений, и обучается с помощью двухэтапного конвейера данных, синтезирующего когнитивные аннотации на каждую секунду, согласованные с временной шкалой поступления входных данных. Эмпирически LWS демонстрирует сильное полнодуплексное взаимодействие на Full-Duplex-Bench, достигает 4,72 на VoiceBench AlpacaEval, показывает 92,6% согласованности между письмом и речью и стабильно превосходит свои внутренние абляции на URO-Bench. Эти результаты показывают, что видимая запись может служить полноценным выходным каналом для речевого взаимодействия без ущерба для оперативности в реальном времени. Код и набор данных доступны на странице проекта: https://royalzhang.com/project/lws-page/.
Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) стало ведущей парадигмой для повышения способности к рассуждению больших языковых моделей с помощью контроля, основанного на результатах. Однако проверяемые вознаграждения часто становятся неинформативными на уровне группы: когда все сэмплированные трассы для данного запроса получают одинаковое вознаграждение, оценка относительного преимущества в группе не даёт градиентного сигнала, хотя эти трассы могут существенно различаться по качеству рассуждения. Мы предлагаем Reasoning Arena — адаптивную обучающую структуру, которая направляет такие неразнообразные группы вознаграждений в систему оценщиков вместо их отбрасывания. Помимо проверки финального ответа, Reasoning Arena организует турниры трасс, где цепочки рассуждений сравниваются попарно, чтобы выявить более детальные предпочтения внутри группы, преобразуя качество рассуждений в богатые относительные сигналы вознаграждения. Чтобы сделать оценку вознаграждения эффективной, вместо исчерпывающего сравнения каждой пары каждая новая трасса оценивается относительно небольшого динамически обновляемого пула ранее сгенерированных трасс, выступающих в качестве якорей, что позволяет эффективно установить относительный порядок. Затем мы подгоняем модель Брэдли-Терри на неполном графе сравнений, что обеспечивает масштабируемую интеграцию с обучением с подкреплением без квадратичных попарных сравнений. Эмпирические результаты показывают, что Reasoning Arena последовательно превосходит базовую линию RLVR в среднем на 7,6% в задачах соревновательной математики и программирования. Превращая иначе бесполезные образцы с нулевым преимуществом в полезные обновления градиента, наш метод ускоряет обучение на 27–41%, сокращает вычислительные затраты на генерацию почти на 50% и существенно повышает общую производительность рассуждений.
Модели мировых действий (World Action Models, WAMs) расширяют обучение политики робота за счет включения прогнозирования будущего в качестве дополнительной целевой функции обучения, что побуждает политику кодировать в своих представлениях релевантную задаче временную структуру. Современные WAM часто опираются на крупномасштабные генеративные архитектуры, что приводит к высоким затратам на обучение и задержкам при выводе, затрудняя их развертывание в качестве эффективных политик с обратной связью. Мы предлагаем Light-WAM — легковесную модель мировых действий для эффективной манипуляции робота. В частности, она построена на основе компактной видеомагистрали и использует супервизию по будущим кадрам в пониженном латентном пространстве, что снижает затраты на совместное обучение с видео, сохраняя при этом его преимущества для обучения представлений. Для прогнозирования действий Light-WAM вводит StateFusionActionExpert, который считывает адаптированные состояния с нескольких слоев магистрали, объединяет их с помощью пулинга с обучаемыми запросами и напрямую предсказывает фрагменты действий за один прямой проход. Такая конструкция обеспечивает эффективный интерфейс между представлениями видеомагистрали и действиями робота, избегая необходимости в тяжелых генеративных экспертах действий. Эксперименты показывают, что Light-WAM сохраняет высокую производительность на LIBERO и достигает приемлемой многозадачной производительности на RoboTwin 2.0, используя при этом всего 0,44 млрд обучаемых параметров. Она также демонстрирует задержку вывода 72,03 мс при пиковом использовании памяти GPU 4,1 ГБ и улучшенную пропускную способность обучения.
Конвейеры вопросно-ответных систем с дополнением检索 (Retrieval-augmented QA) часто направляют извлеченные отрывки через LLM-переписчик перед обработкой более компактным считывателем, что повышает F1 на десятки пунктов в многопереходных бенчмарках; этот прирост обычно объясняют улучшенным качеством свидетельств. Мы задаемся вопросом, обусловлен ли этот прирост причинно-следственно появлением эталонной строки ответа в переписанном контексте, а не самой обработкой, используя контролируемый аудит вмешательств. Для каждого переписанного контекста мы повторно запускаем считыватель после одного из четырех контролируемых редактирований выходных данных компиляции: удаление диапазона эталонного ответа, замена на случайный диапазон не-ответа совпадающей длины (плацебо) или внедрение эталонного ответа в переписанные тексты, где он отсутствовал (в начале или на границе предложения в середине). В ходе двенадцати завершенных прогонов вмешательств (ячейка, базовый уровень), охватывающих три семейства считывателей (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), два набора данных (HotpotQA, 2WikiMultihopQA) и три конфигурации компилятора (только MA, только MB, MA+верификация), удаление эталонного ответа снижает F1 считывателя на 28–64 пункта по сравнению с плацебо совпадающей длины в парных стратах «ответ-в-компиляции», а добавление эталонного ответа в начало переписанных текстов, где он отсутствовал, повышает F1 на +0,7–+9,7 пунктов в 10 из 12 комбинаций (ячейка, базовый уровень). Сопутствующий аудит с пятью сентинелями показывает, что обычный одно-[MASK]-зонд сам является сентинель-хрупким: на 2Wiki он сообщает о +4,12 F1 «остатка без утечки», который меняется на -3,33 до -7,81 F1 при четырех альтернативных сентинелях и не проходит тест на эквивалентность для трех из этих четырех (1/4 проходит). Мы не предлагаем новый переписчик или меры смягчения; мы публикуем раннер вмешательств и панель сентинелей, чтобы другие утверждения о приросте от переписчиков можно было проверить по тому же стандарту.
Deep Research (DR) превратился в новую агентную парадигму для решения сложных исследовательских задач открытого типа, требующих систем, способных итеративно формулировать проблемы, собирать свидетельства, проверять источники и синтезировать развернутые отчеты. Однако на практике современные системы DR ограничены четырьмя взаимосвязанными недостатками: долгосрочным планированием в условиях неопределенной области («underspecified scope»); узким местом декомпозиции и планирования таких задач в рамках одного агента; риском галлюцинаций при синтезе длинных текстов; а также ограниченной возможностью аудита процесса. В настоящем техническом отчете представлен DuMate-DeepResearch — многоагентный фреймворк DR, построенный на платформе Qianfan Agent Foundry. Данный фреймворк отделяет ядро агента (Agent Core), отвечающее за понимание задачи, планирование и составление расписания, от расширяемой экосистемы инструментов (Tool Ecosystem), предназначенных для поиска, получения доказательств и формирования отчетов, что делает каждое промежуточное решение и вызов инструмента явно отслеживаемыми. Развивая эту инфраструктуру, DuMate-DeepResearch дополнительно вводит три механизма: (i) стратегию динамического планирования на основе графов, которая разворачивает исследовательскую дорожную карту от общего к частному и непрерывно корректирует ее посредством рефлексии, перепланирования, возврата и параллельного ветвления; (ii) рекурсивную двухуровневую архитектуру выполнения, при которой каждая сложная подзадача поиска делегируется внутреннему агенту поиска (Search Agent), выполняющему собственный цикл планирования, что изолирует зашумленный поиск и стабилизирует долгосрочное выполнение; (iii) механизм оптимизации на основе рубрик (rubric-based) во время тестирования, который динамически генерирует критерии качества, специфичные для задачи, и использует их в качестве живых опор для рассуждений при синтезе на основе доказательств и адаптивном останове. На двух бенчмарках глубоких исследований DuMate-DeepResearch устанавливает новые результаты на уровне современного искусства: лучший общий балл (58.03%) на DeepResearch Bench и лучший общий балл (61.95%) на DeepResearch Bench II, заняв при этом первое место по полноте и анализу информации.
Модели генерации изображений по тексту используют текстовые подсказки (prompts) в качестве основного интерфейса взаимодействия с намерениями человека. Подсказки кодируются текстовым энкодером в эмбеддинги, которые обусловливают процесс генерации изображения. Помимо значений отдельных токенов, текстовые эмбеддинги кодируют контекстную информацию по всей подсказке, такую как композициональность и связывание атрибутов. Однако остаётся малоизученным, действительно ли модели изображений используют эту более богатую информацию. Здесь мы рассматриваем вопрос: какие аспекты текстового представления существенны для генерации изображений? Мы показываем, что модели генерации изображений на основе диффузионных трансформеров обычно полагаются только на два относительно простых аспекта текстовых представлений: (i) объединение соседних токенов в представление слова для слов, состоящих из нескольких токенов, и (ii) порядок слов, который запечатлевается позиционным эмбеддингом текстового энкодера. Для демонстрации этого мы конструируем новый текстовый эмбеддинг, который кодирует только значения отдельных слов и их порядок, но лишён какой-либо контекстной информации о всей подсказке. Мы обнаруживаем, что этого представления в виде набора слов с позиционными метками достаточно для успешного управления генерацией изображений, обеспечивая визуальное качество и текстовую точность, сопоставимые с генерацией на основе полного текстового эмбеддинга. Это демонстрирует, что, вопреки распространённому мнению, модели генерации изображений по тексту часто не используют богатую информацию, закодированную в текстовом эмбеддинге, помимо значений отдельных слов и порядка слов. Вместо этого декодирование сложных лингвистических структур выполняет сама модель изображения. Веб-страница проекта: https://nsping13.github.io/contextless-TTI/
Модели Vision-Language-Action (VLA) становятся перспективной парадигмой для роботизированного манипулирования, позволяя использовать политики общего назначения, обученные на больших корпусах демонстраций и аннотаций действий. Однако адаптация этих моделей к новым задачам по-прежнему обычно требует демонстраций, специфичных для задачи, аннотаций действий и дополнительной тонкой настройки, что делает развертывание дорогим и трудно масштабируемым. Мы предлагаем WIZARD — фреймворк мета-обучения в пространстве весов, который обходит необходимость в тонкой настройке для конкретной задачи, генерируя параметры LoRA, специфичные для задачи, для замороженной политики VLA. При наличии только языковой инструкции и короткого демонстрационного видео WIZARD предсказывает соответствующие веса адаптации за один прямой проход, без меток действий целевой задачи или оптимизации во время тестирования. В ходе мета-обучения WIZARD учится напрямую отображать свидетельства задачи в экспертные обновления LoRA, фиксируя взаимосвязи между задачами в пространстве весов. Эксперименты на LIBERO показывают, что WIZARD улучшает производительность до ~2 раз на невидимых наборах данных и до ~14 раз на невидимых задачах. На Franka Emika Panda WIZARD последовательно превосходит базовый вариант, адаптированный к реальной области, что демонстрирует, что сгенерированные адаптеры обеспечивают специализацию на уровне задачи за пределами симуляции.
Дистилляция на политике (OPD) стала основным инструментом пост-тренировки для больших языковых моделей (LLM), обеспечивая плотное пословное (по-токеновое) обучение от учителя на собственных траекториях студента. В данной работе мы выявляем общую структурную причину, лежащую в основе OPD, которую мы называем отказом префикса. При отказе префикса плотное пословное обучение порождает бимодальную смесь учителя и фрагментированные градиенты, которые не удается устранить с помощью усечения или перевзвешивания потерь на уровне токенов. Это наблюдение побуждает нас выйти за рамки вмешательств в функцию потерь на уровне токенов и перейти к коррекции выходов на уровне траекторий. Таким образом, мы предлагаем дистилляцию с уточнением траекторий (TRD) — метод коррекции на уровне траекторий, который исправляет развертку студента под руководством учителя, оставаясь в рамках поддержки на политике. Исправляя проблемные префиксы до дистилляции, TRD устраняет отказ префикса в его источнике. Кроме того, TRD улучшает исследование, предоставляя студенту альтернативные корректные выводы под руководством учителя, даже когда исходные развертки уже верны. TRD также может применяться к само-дистилляции на политике (OPSD) — варианту с разделением параметров, где в качестве учителя используется модель студента, дополненная привилегированной информацией. На широком спектре бенчмарков и базовых моделей различных масштабов TRD последовательно превосходит предыдущие базовые подходы, повышая точность за одну попытку и расширяя покрытие рассуждений. Код доступен по адресу https://github.com/louieworth/trd.
Обучение с подкреплением с проверяемыми наградами быстро продвинуло рассуждения в визуально-языковых моделях. Однако для генерации отчетов по рентгенографии грудной клетки стандартные награды (т.е. точность точного совпадения и пошаговые процессы) несовместимы, поскольку отчеты состоят из неупорядоченных и ортогональных находок, а не из причинно-следственной цепочки рассуждений. Мы устраняем этот пробел с помощью представления на основе множеств: каждый отчет разбивается на предложения и встраивается с помощью замороженного трансформера предложений, что дает неупорядоченные наборы эмбеддингов. Мы предлагаем использовать расстояния между множествами между сгенерированными и эталонными эмбеддингами как непрерывные, инвариантные к перестановкам награды. На двух наборах данных и трех визуально-языковых моделях (Qwen3-VL-2B/4B, Gemma3-4B) пост-обучение с наградами на основе расстояний между множествами через GRPO последовательно превосходит контролируемую тонкую настройку и GRPO с точным совпадением по всем основным метрикам (BERTScore, RadGraph F1 и CheXbert F1 с относительными улучшениями в среднем на 6,80%, 7,82% и 4,45% соответственно). Те же расстояния между множествами также обеспечивают выбор лучшего из N на тестовом этапе: оценка кандидатов по их расстоянию до эмбеддингов обучающих отчетов превосходит случайный выбор на наших обученных моделях, а также на трех закрытых LLM (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) с относительным улучшением BERTScore в среднем на 16,4%. Используемые как потоковый сигнал, они поддерживают более эффективную форму масштабирования на тестовом этапе: отсечение кандидатов с низкими оценками на середине генерации сокращает количество генерируемых токенов более чем на 50%, сохраняя при этом качество Findings при полном выборе лучшего из N. В совокупности эти результаты устанавливают награды на основе расстояний между множествами как единый сигнал как для пост-обучения, так и для масштабирования на тестовом этапе при генерации отчетов по рентгенографии грудной клетки. Наш код общедоступен: https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA{available}.
Трансформеры зрения работают на фиксированных сетках патчей, что может вызывать фазово-зависимую нестабильность при плотном предсказании: изменение разбиения на патчи изменяет доступное пикселю токеновое свидетельство, особенно вблизи границ. Мы формализуем фазу сетки патчей как мешающую переменную и предлагаем маргинализацию по фазе — апостериорный метод маргинализации, который оценивает структурированные фазы сетки патчей, выполняет обратное выравнивание плотных выходов и агрегирует их в исходной системе координат изображения. Центральный вариант — равномерная маргинализация по фазе с K = 4 — не требует обучения и превосходит канонический базовый уровень K = 1 во всех измеренных настройках сегментации, глубины и локального сопоставления. В контролируемом эксперименте на Cityscapes равномерная маргинализация по фазе обеспечивает скромное преимущество при сопоставимых вычислительных затратах по сравнению с универсальной аугментацией во время тестирования (TTA) на основе сдвигов с четырьмя прямыми проходами (+0,31 среднего пересечения по объединению относительно наиболее сильной из протестированных универсальных строк). Дальнейшее исследование масштабирования показывает, что K = 4 является практическим компромиссом между стоимостью и точностью: K = 8 практически не изменяет результат, а K = 16 добавляет мало точности при значительно большей задержке. Эти результаты позиционируют фазу сетки патчей как измеримую мешающую переменную, а маргинализацию по фазе — как простой диагностический и апостериорный базовый уровень маргинализации для плотного предсказания с помощью ViT.
Обучение веб-агентов на основе языка и изображений с помощью многошагового RL является вычислительно затратным, при этом доминируют две формы неэффективности: простой GPU в синхронном RL и траектории, использующие больше шагов и токенов, чем необходимо. Мы представляем AsyncWebRL, решающий обе эти проблемы. Со стороны системы асинхронная архитектура совмещает rollout, обновление градиента и обновление политики между итерациями, что дополняется двумя адаптациями, специфичными для веб-агентов, а именно бесконечным пулом развертывания и легковесной обработкой скриншотов. Вместе они обеспечивают до 2,9-кратного ускорения сквозной пропускной способности обучения по сравнению с самым быстрым из существующих открытых синхронных конвейеров (WebGym). Со стороны алгоритма мы выявляем, что коренной причиной неэффективности на уровне траекторий и токенов является нормализатор 1/|τ_i| в многошаговом GRPO: поскольку неудачные траектории систематически длиннее успешных, он понижает вес отрицательного градиента для токенов неудачных траекторий, в результате чего политика продолжает порождать многословные схемы памяти. Замена 1/|τ_i| на константу 1/k разрывает эту связь, сокращая траектории при сохранении совокупного успеха. В совокупности эти вклады устанавливают новый стандарт среди открытых решений для тестового раздела вне распределения WebGym (+5,8% относительного прироста к предыдущему лучшему результату в 42,9%), причем наибольшие улучшения достигаются на более сложных подразделах (+42% относительного прироста на Medium, +48% относительного прироста на Hard).
Обобщение от слабого к сильному изучает, как улучшить сильного ученика, используя контроль со стороны более слабого учителя в условиях дефицита надежных меток. Мы рассматриваем эту задачу прежде всего как проблему выбора данных, где ключевая трудность заключается в определении того, какие слабые метки достаточно надежны, чтобы служить обучающим сигналом. Для решения этой проблемы мы вводим функции доверия, которые присваивают каждой слабой метке скалярную оценку доверия и используют эти оценки для фильтрации слабого контроля. В нескольких областях, включая знание о мире, количественные рассуждения и стратегические игры, фильтрация на основе доверия дает учеников, которые соответствуют, а иногда и превосходят контроль по истинным меткам, достигая почти без потерь обобщения от слабого к сильному. Кроме того, функции доверия позволяют построить итеративную цепочку от слабого к сильному, которая накапливает выигрыш путем обучения ученика и повторного использования его в качестве следующего учителя, усиливая тем самым выигрыш. Существует несколько механизмов, которым можно приписать преимущество функций доверия.
Цепочка рассуждений (Chain-of-Thought, CoT) повышает производительность больших языковых моделей (Large Language Models, LLMs) и была расширена на мультимодальные большие языковые модели (Multimodal Large Language Models, MLLMs). Более поздние работы продвигаются далее от текстового мультимодального рассуждения к рассуждению с чередованием модальностей, где промежуточные шаги могут включать как текстовые обоснования, так и визуальные свидетельства. В данной работе мы предлагаем более смелую и амбициозную идею: могут ли изображения сами по себе служить средой рассуждения для языковых и мультимодальных задач? Чтобы исследовать это, мы предлагаем оптическое рассуждение, которое рассматривает изображения как самостоятельную среду рассуждения. Мы реализуем эту концепцию в двух вариантах: типографическое оптическое рассуждение, оптимизирующее визуальные макеты для компактного отображения обоснований, и графическое оптическое рассуждение, составляющее текст и графические элементы в структурированные визуальные обоснования. На бенчмарках математического, научного и перемежающегося модального рассуждения оптическое рассуждение может соответствовать или даже превосходить традиционное текстовое рассуждение, одновременно сокращая количество токенов рассуждения в среднем на 28,57% для языковых задач и на 16% для мультимодальных задач, достигая 1,96-кратной эффективности токенов по сравнению с текстовым рассуждением. Эти результаты показывают, что изображения могут эффективно и действенно кодировать обоснования, предоставляя при этом единый визуальный холст для рассуждения.
Недавние видеомодели мира, работающие на уровне пикселей, сделали возможным взаимодействие с виртуальными средами на уровне камеры: пользователи могут перемещать точку обзора, в то время как модель генерирует связные визуальные продолжения. Однако их пространства действий остаются неполными: пользователи могут двигать камеру, но не могут воздействовать на отдельные объекты. Поскольку взаимодействие в реальном мире по своей сути объектно-ориентировано, такие модели остаются скорее пассивными наблюдателями сцены, чем действительно манипулируемыми средами. Мы представляем WorldCraft — фреймворк, который расширяет интерактивные видеомодели мира от навигации камеры до траекторных действий на уровне объектов. При щелчке пользователя и набросанном пути WorldCraft генерирует будущие кадры, в которых выбранный объект следует заданной траектории, в то время как камера продолжает навигацию по сцене. WorldCraft достигает этого с помощью конвейера управления, ориентированного на траекторию. Во-первых, Нормализованная Мировая Траектория (NWT) представляет пользовательское движение в инвариантной к камере мировой системе координат и динамически перепроецирует его при текущем положении камеры, отделяя движение объекта от вызванного камерой смещения в экранном пространстве; затем Пространственно-Путевая LoRA (SP-LoRA) внедряет этот мировой сигнал через пространственный канал управления модели, добавляя возможность манипуляции объектом при сохранении предварительно обученного контроллера камеры; наконец, Анкорированная Траекторией Постоянная Состояния (TASP) рассматривает мировую траекторию как постоянное пространственное состояние и обновляет авторегрессионную память после генерации, обусловленной траекторией, позволяя перемещенным объектам снова появляться на обновленных позициях после выхода из поля зрения камеры. Эксперименты показывают, что WorldCraft обеспечивает точное управление объектами, сохраняет точность камеры видеомодели мира при оценке только по камере и поддерживает состояние объектов в течение длительных авторегрессионных разверток с выходами за пределы камеры.
Результаты оценки ИИ массово производятся, но отчеты о них непоследовательны в лидербордах, карточках моделей, статьях о бенчмарках и корпоративных блогах. Цена этого — интерпретационная: читатели не могут надежно сравнивать результаты из разных источников, выявить, что в отчете опущено, или проследить агрегированное утверждение до его исходных данных. Недавние усилия затрагивают отдельные компоненты, но оставляют три пробела: они охватывают лишь узкие фрагменты жизненного цикла оценки и не складываются в единую интерпретируемую запись; они задают статические представления, которые не различают вопросы, которые разные заинтересованные стороны задают к одним и тем же данным; и они остаются предложениями на бумаге, не имея инфраструктуры извлечения, необходимой для масштабного внедрения. Мы представляем операционный уровень отчетности, который объединяет метаданные бенчмарков, данные о запусках оценки и метаданные моделей в единую запись. Мы (1) выводим схему отчетности на основе структурированного обзора 52 статей и 10 интервью с заинтересованными сторонами, (2) реализуем четыре интерпретационных сигнала (воспроизводимость, полнота документации, происхождение и риск, сопоставимость баллов), отображаемые через режимы чтения, настроенные на исследовательскую и неисследовательскую аудиторию, и (3) развертываем инструмент мониторинга, который применяет данную схему к 5 816 моделям, 635 бенчмаркам и 101 843 результатам, выявляя систематические пробелы в современной практике отчетности.
Детекторы промпт-инъекций неоднородны: каждый силен в своем срезе атак, и ни один не является надежным всегда. Тем не менее существующие системы по-прежнему рассматривают защиту как фиксированный конвейер с одним детектором, направляя каждый запрос в слепые зоны какого-то одного детектора. Мы переосмысливаем оборону как распределение детекторов: имея неоднородный пул, решать для каждого запроса, какие детекторы запускать и стоит ли передавать запрос на рассмотрение LLM-судье. Наш фреймворк SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage — масштабируемое и управляемое предсказание результатов для триажа с учетом неопределенности) делает это решение динамическим, предсказывая для каждого детектора его надежность и задержку на конкретном образце на основе поведения на похожих входных запросах, и предоставляет оператору единый порог безопасности-полезности (где полезность объединяет долю пропущенных безопасных запросов и общее время выполнения). Для оценки этого сценария мы создали SCOUT-450 — эталон, охватывающий структурно сложные инъекции, направленные на агентов, которые недостаточно представлены в старых наборах промпт-инъекций. На SCOUT-450 точка работы, ориентированная на безопасность, снижает долю успешных атак на 46%, а общее время выполнения — на 40% по сравнению с постоянно включенным судьей GPT-4o при падении полезности для безопасных запросов на 5,1 пункта. SCOUT также переносится на три внешних эталона (BIPIA, IPI и IHEval), улучшая границу безопасности-полезности.
Бенчмарки агентов оценивают решения с помощью верификаторов результатов, которые обычно пишутся вручную и являются хрупкими, что оставляет их уязвимыми для взлома поощрений (reward hacking). Мы проверили 1 968 задач из пяти терминальных бенчмарков агентов и обнаружили, что 323 (16%) из них могут быть взломаны современными моделями, имея только описание задачи. Это искажает как рейтинги лидербордов, так и сигнал обучения с подкреплением, однако стандартная реакция остаётся ручной и реактивной. Мы представляем цикл «хакер-исправитель» (hacker-fixer loop) — метод создания устойчивых к эксплуатации верификаторов без ручного исправления каждой задачи. Цикл чередует три LLM-агента: хакер пытается пройти верификатор без решения задачи, исправитель модифицирует верификатор, чтобы отклонить каждую обнаруженную уязвимость, а решатель подтверждает, что исправленный верификатор по-прежнему допускает легитимные решения. Цикл повторяется: каждое исправление изменяет то, что поощряет верификатор, выявляя следующую уязвимость. Мы также добавляем доступ к верификатору и позволяем исправлениям переноситься между задачами, чтобы расширить спектр уязвимостей, обнаруживаемых циклом. На KernelBench цикл снижает показатель успешности атак с 62% до 0% на отдельном наборе публично зарегистрированных уязвимостей. Мы также обнаружили, что более слабые агенты в цикле могут защищаться от значительно более сильных хакеров: цикл Gemini 3 Flash снижает показатель успешности атак более сильных моделей Gemini 3.1 Pro и Claude Opus 4.7 с 76% и 61% до 0% на KernelBench, а цикл Gemini 3.1 Pro — с 39% до 17% на Terminal Bench для 77 задач. Мы выпускаем Terminal Wrench (323 взламываемых среды, 3 632 траектории взлома) как моментальный снимок текущей поверхности атак, наши исправленные верификаторы, уязвимости, обнаруженные циклом, и нашу реализацию в качестве основы для будущих исследований.
Существующие эталоны для извлечения научных отношений в основном ориентированы на такие области, как компьютерные науки, где сущностями являются задачи, методы, наборы данных, материалы или метрики. Это оставляет пробел в эмпирических областях, ориентированных на переменные, таких как психология, где результаты выражаются в виде отношений между конструктами, измерениями, вмешательствами и исходами. Мы представляем извлечение эмпирических графов, ориентированных на переменные, — задачу отображения научных аннотаций в типизированные графы, узлы которых являются нормализованными переменными, а ребра представляют эмпирические и иерархические отношения. Для поддержки этой задачи мы создаем EmpiriGraph-Psy — эталон из 210 аннотаций по психологии, размеченных обученными в предметной области разметчиками с указанием нормализованных переменных, иерархий понятий, типов эмпирических отношений и состояний валидации. Мы оцениваем передовые LLM с открытыми весами, используя как прямое извлечение, так и поэтапный конвейер построения графов, разделяющий извлечение переменных, нормализацию, построение иерархии, выбор свидетельств, извлечение отношений и валидацию ребер. Поэтапный конвейер значительно превосходит прямое извлечение, при этом лучшая конфигурация достигает макро-F1 0,74. Анализ ошибок показывает, что отношения модерации и иерархии понятий остаются наиболее сложными случаями, что подчеркивает трудность извлечения эмпирических утверждений более высокого порядка и неявной структуры абстракции из научных аннотаций.
Понимание того, что генеративные модели сохраняют из обучающих данных, остается сложной задачей, имеющей последствия для авторского права и конфиденциальности. Помимо дословного воспроизведения, модели могут кодировать более тонкие следы своих обучающих данных, которые никогда не проявляются в их выходных данных, но остаются пригодными для использования. Мы изучаем этот режим для Rectified Flows, которые все чаще используются в развернутых генеративных системах. Мы анализируем интерполяционный путь X_λ = (1-λ)X_0 + λX_1, который определяет обучение Rectified Flow. Мы показываем, что существует разрыв между восстановлением обучающих и тестовых данных, который следует колоколообразной кривой по λ, накапливаясь в процессе обучения, в то время как метрики валидации остаются стабильными. Сигнал имеет максимум, местоположение которого мы выводим в замкнутой форме при гауссовых предположениях. Мы проверяем эти предсказания как на аудио, так и на изображениях и показываем, что колоколообразная структура является универсальной, в то время как предсказание пика выполняется при соблюдении наших предположений. В качестве доказательства концепции мы используем эту специфическую λ-разрешенную структуру для проведения атаки по определению принадлежности к обучающему набору, отличая элементы обучающего набора от не входящих в него.
Системы медицинских агентов всё чаще должны поддерживать интерактивное принятие клинических решений, а не только статическое ответы на вопросы. В таких условиях эффективные агенты должны повторно использовать предыдущий опыт в развивающихся случаях, однако существующие механизмы памяти часто сохраняют сырые исторические следы, которые избыточны, зашумлены и трудно поддаются управлению. Более того, они редко различают, какие воспоминания действительно полезны для будущих рассуждений. Это ограничивает их способность накапливать компактный и надежный опыт для долгосрочных клинических рассуждений. Для устранения этого пробела мы предлагаем SkeMex — фреймворк самоэволюции после развертывания, который улучшает медицинских агентов с помощью памяти, основанной на навыках, без обновления весов модели. SkeMex дистиллирует информативные траектории взаимодействия в структурированные навыки, кодирующие повторно используемые процедурные знания, и организует их в многопрофильное хранилище, охватывающее общий, специфический для задачи и уровень опыта на уровне действий. Чтобы определить, какие воспоминания следует повторно использовать и сохранять, SkeMex оценивает контекстно-зависимую полезность на основе обратной связи из среды и использует её для управления извлечением, учитывающим ценность, и управлением хранилищем. Замкнутый жизненный цикл «Чтение—Запись—Оценка—Управление» дополнительно поддерживает непрерывную эволюцию за счёт записи новых навыков, обновления полезности, продвижения полезных воспоминаний и удаления вредоносных записей. Эксперименты на различных клинических задачах показывают, что SkeMex последовательно превосходит репрезентативные агенты на основе памяти как в автономных, так и в онлайн-настройках. Он также обобщается на разные базовые модели и поддерживает переносимую память навыков. Все данные и код будут опубликованы в открытом доступе.
Мы представляем SigmaScale — метод обучения вспомогательных масштабирующих матриц S, предназначенный для сжатия больших языковых моделей (LLM) на основе усеченного сингулярного разложения (SVD). В отличие от аналитического вывода масштабирующих матриц, SigmaScale оптимизирует два набора векторов, задающих диагональные преобразования масштабирования строк и столбцов, под управлением функции потерь сжатия, учитывающей активации. Мы показываем, что обученное масштабирование снижает эффективный внутренний ранг весовых матриц, что отражается в уменьшении энтропии эффективного ранга, и что это снижение сильно коррелирует с потерями при сжатии. Эксперименты на Llama 3.1 8B Instruct и Qwen3-8B демонстрируют, что SigmaScale конкурентоспособен с близкими современными методами сжатия на основе SVD по показателям перплексии и бенчмаркам zero-shot. Используя обученные преобразования с учетом активаций, SigmaScale предлагает более гибкий путь к низкоранговому сжатию LLM, адаптируясь к структуре отдельных весов модели. Наблюдаемое преимущество в конкретных задачах делает наш подход допустимым вариантом для приложений, требующих снижения вычислительных затрат на инференс LLM.
Большие языковые модели все чаще оцениваются другими моделями, что порождает естественный вопрос: может ли модель предсказать, как оценщик оценит ее собственный вывод? Мы обнаружили, что эта способность в значительной степени присутствует еще до любого целевого обучения: при few-shot подсказке базовая модель уже предсказывает многокритериальные оценки качества внешнего оценщика для ответов открытого типа значительно выше случайного уровня по трем тестовым наборам. Мы представляем метод Выявления самооценки (Self-Evaluation Elicitation, SEE), который извлекает эту латентную способность с помощью короткого цикла, включающего фазу подкрепленного обучения, сопряженного с калибровкой, улучшающего ответ и предсказывающего оценщика, за которой следует фаза маскированной дистилляции, уточняющая предсказание без изменения самого ответа. На 160 уникальных примерах, что примерно в 31 раз меньше, чем в базовом подходе с подкрепленным обучением, SEE улучшает калибровку на отложенных данных по трем тестовым наборам, сохраняя при этом качество ответов. Извлеченная самооценка резко локализована в собственном токенном распределении модели и стабильна для оценщиков, на которых модель никогда не обучалась, что указывает на переносимое понятие качества, а не на предпочтения отдельного оценщика. Эти результаты переосмысливают самооценку, согласованную с оценщиком, как проблему выявления, а не приобретения.
Латентное визуальное рассуждение (LVR) вставляет контролируемые латентные токены между восприятием и генерацией ответа в моделях «зрение—язык» (VLM). В этой области используется выравнивание между этими латентными представлениями и их визуальными целями, то есть косинусное сходство или среднеквадратическая ошибка (MSE), как в качестве функции потерь при обучении, так и в качестве метрики качества, исходя из предположения, что лучшее выравнивание ведёт к лучшему ответу. Мы проверяем это с помощью специально построенной матрицы из пяти вариантов LVR и обнаруживаем, что предположение инвертировано: косинусное выравнивание отрицательно коррелирует с точностью во всех пяти случаях (r = –0,94). Для объяснения этого мы вводим PRISM — пару диагностических методов во время инференса: линейный зонд, определяющий, где ответ может быть декодирован, и тест на искажение, выясняющий, является ли латентное представление несущим нагрузку. Контролируемые латентные представления в значительной степени обходятся. Их искажение изменяет точность не более чем на четыре пункта. Ответ декодируем после латентного представления, но не на самом латентном представлении, и размер этого разрыва в декодируемости предсказывает, насколько каждый вариант полагается на своё латентное представление при возмущении. В соответствии с интерпретацией функции потерь с точки зрения информационного узкого места (Information Bottleneck), вспомогательная цель перестраивает языковую модель через общие параметры, а не через латентную переменную, которую она номинально оптимизирует.
Стандартные трансформеры применяют самовнимание единообразно на каждом слое и для каждого токена, независимо от того, требует ли входной сигнал динамического взаимодействия между токенами. Мы предлагаем CHIAR-Former (Chiaroscuro Attention) — гибридный трансформер с 4 слоями, который направляет каждый токен к одному из трёх операторов — спектральному смешиванию через ДКП, смешиванию с помощью РБФ-ядра или полному самовниманию — на основе спектральной энтропии токена, теоретически обоснованного сигнала сложности. С помощью систематического абляции на WikiText-103 мы обнаруживаем коллапс маршрутизации: маршрутизатор последовательно отвергает РБФ в пользу ДКП и самовнимания, что указывает на то, что спектральное смешивание и динамическое внимание являются взаимодополняющими и достаточными. Целенаправленный вариант, использующий только ДКП и самовнимание, достигает Val PPL 36.54 на WikiText-103 — улучшение на 45% по сравнению с базовой моделью с полным вниманием (PPL 66.62) при сокращении вычислительных затрат на внимание на 62.5%. Мы расширяем оценку на WikiText-2, классификацию тональности IMDB и синтетические операции ListOps, устанавливая чёткий режим работы: CHIAR-Former превосходит другие модели на крупномасштабных естественных текстах, где разнообразие токенов поддерживает спектральную специализацию, в то время как полное самовнимание сохраняет преимущество на небольших наборах данных и задачах синтетического поиска по образцу. Эти результаты — как успехи, так и неудачи — в совокупности определяют, когда и почему спектральная маршрутизация оправдывает себя.
Долгосрочные агентные задачи ставят фундаментальную проблему распределения кредита для методов обучения с подкреплением, основанных на исходе: вознаграждения на уровне траекторий подтверждают финальную корректность, но дают ограниченное указание на то, какие промежуточные шаги рассуждений или взаимодействия с инструментами привели к данному исходу. Сложность особенно заметна в многошаговых поисковых агентах, где успешные траектории могут содержать вводящие в заблуждение действия, а неудачные траектории — ценные шаги по сбору свидетельств. Мы предлагаем PBSD (Привилегированная Байесовская Самодистилляция) — калиброванный по Байесу метод самодистилляции для точного распределения кредита при разреженных финальных вознаграждениях. PBSD измеряет качество траектории через отношение апостериорной вероятности к априорной для подтвержденного ответа и применяет правило Байеса, чтобы преобразовать это труднооцениваемое отношение со стороны ответа в вычислимое отношение правдоподобия между стандартной студенческой моделью и привилегированной моделью-учителем, обусловленной ответом. Авторегрессионное разложение этого Байесовского показателя достоверности порождает сигналы на уровне шагов, которые идентифицируют, поддерживает или подрывает ли каждый промежуточный шаг подтвержденный исход. Следовательно, PBSD предоставляет принципиальную и элегантную схему перевзвешивания, которая преобразует разреженный супервизорный контроль по исходу в калиброванные по Байесу сигналы кредита на уровне шагов, оставаясь при этом полностью совместимой со стандартной оптимизацией политики. Эксперименты демонстрируют, что PBSD последовательно улучшает производительность как в условиях, соответствующих обучающей выборке, так и вне распределения, а также эффективно переносит знания с обучения на коротких контекстах на вывод в длинных контекстах, что позволяет предположить, что его механизм точного распределения кредита способствует более эффективному обучению политики и обеспечивает улучшенную обобщающую способность.
Недавние успехи в области манипуляции роботами в значительной степени обусловлены обучением на основе крупномасштабных демонстраций. Однако для задач локомоции и манипуляции человекоподобных роботов существующие источники данных вынуждают идти на неудовлетворительный компромисс между качеством траекторий и масштабируемостью. Телеоперация в реальном мире обеспечивает траектории наивысшего качества, но требует выделенного физического пространства и длительных сбросов сцены. Симуляция предлагает альтернативный выход из этой дилеммы: она позволяет получать чистые данные, согласованные с телом робота, в масштабе без использования какого-либо физического оборудования. В данной статье мы предлагаем OASIS — фреймворк, основанный на данных симуляции для локомоции и манипуляции человекоподобных роботов. OASIS автоматически реконструирует реалистичные объектные активы из изображений реального мира с помощью 3D-генеративной модели. На основе этих активов траектории сначала собираются посредством телеоперации в симуляции, а затем на этапе постобработки дополняются в условиях разнообразных доменных рандомизаций. С использованием полученных симуляционных данных мы дополнительно разрабатываем иерархическую висуомоторную политику для локомоции и манипуляции человекоподобных роботов. Обширные эксперименты на реальном человекоподобном роботе показывают, что при нулевом переносе политика, обученная на наших симуляционных данных, достигает более высоких показателей успеха в большинстве задач по сравнению с политикой, обученной на данных телеоперации реального робота, что в значительной степени обусловлено широкими вариациями освещения и окружения, охватываемыми нашей симуляционной визуализацией, которые данные реального робота не способны захватить. Страница проекта доступна по адресу https://oasis-humanoid.github.io/.
В данной статье исследуется агентное 3D-пространственное понимание, то есть MLLM-агенты, выполняющие 3D-рассуждения посредством использования инструментов. Существующие методы часто неправильно используют инструменты и демонстрируют смещённые предпочтения в их выборе в 3D-сценариях, что приводит к лишь незначительному преимуществу агентного подхода по сравнению с неагентными стратегиями. Мы показываем, что задачи 3D-пространственного рассуждения гетерогенны в зависимости от сцен, в то время как эти агенты применяют единую стратегию использования инструментов ко всем сценам, а не выбирают инструменты в соответствии с конкретной сценой и задачей. Для решения этой проблемы мы предлагаем Skill-3D — фреймворк, который обучается саморазвивающимся навыкам, учитывающим сцену. В частности, Skill-3D идентифицирует сцену задачи и записывает траекторию использования инструментов агентом в Память сцен (Scene Memory), где успешные траектории из похожих сцен агрегируются и дистиллируются в повторно используемый навык для данной сцены, а неудачные траектории прикрепляются к навыку в качестве уроков. В процессе обучения, как только возникает похожая сцена, соответствующий навык внедряется для направления агента, создавая новые траектории, успехи и неудачи которых далее уточняют навык, формируя цикл, в котором память и библиотека навыков совместно эволюционируют. Эксперименты показывают, что Skill-3D существенно улучшает использование инструментов при 3D-пространственном рассуждении (с 39% до 78% на VSI-Bench), направляя агента к правильному и достаточному использованию инструментов. Например, он улучшает Gemini-3-Flash на 67% на MMSI-Bench. Кроме того, мы проводим агентное пост-обучение на траекториях, направляемых навыками, что повышает показатель Qwen3-VL-8B на 43% на VSI-Bench.
Оснащение больших языковых моделей (LLM) способностью выполнять надежные многошаговые рабочие процессы стало центральной проблемой в области искусственного интеллекта. Несмотря на недавние достижения в агентных возможностях LLM, большинство агентных систем по-прежнему лишены формальных методов для спецификации, верификации и отладки своих рабочих процессов и траекторий выполнения. Эта проблема перекликается с давней проблемой математики, где неоднозначность естественных языков (NL) стимулирует разработку формальных языков (FL). Вдохновленные этой парадигмой, мы предлагаем **Lean4Agent** — к нашему сведению, первую структуру, использующую Lean4, формальный язык с зависимыми типами, для моделирования и верификации поведения агентов. **Lean4Agent** запускает **FormalAgentLib** — расширяемую библиотеку Lean4 для формального моделирования и верификации семантической согласованности рабочих процессов агентов на основе явных предположений, а также для локализации ошибок времени выполнения, выявляемых траекториями. На базе **FormalAgentLib** мы также разрабатываем **LeanEvolve**, который применяет результаты работы **FormalAgentLib** для пересмотра рабочих процессов с целью повышения их производительности. Обширные эксперименты на сложном подмножестве задач из SWE-Bench-Verified и подмножестве ELAIP-Bench с использованием 5 ведущих LLM показывают, что рабочие процессы, прошедшие верификацию, превосходят непрошедшие в среднем на **11.94%**, а **LeanEvolve** дополнительно улучшает производительность SWE в среднем на **7.47%**. Кроме того, **Lean4Agent** закладывает основу для новой области использования выразительных формальных языков с зависимыми типами для формального моделирования и верификации поведения агентов.
Смесь экспертов (MoE) в настоящее время является доминирующей архитектурой для передовых языковых моделей, однако она требует загрузки всех параметров экспертов в память, что делает её менее предпочтительной для развертывания в условиях ограниченной памяти. Существующие методы сжатия уменьшают количество экспертов, но выходная модель остаётся MoE-моделью с тем же фундаментальным ограничением. Мы представляем первую систематическую структуру для преобразования обученной MoE в стандартную полностью плотную архитектуру: эксперты оцениваются, отбираются и группируются, затем конкатенируются в плотный FFN и уточняются с помощью дистилляции знаний от MoE-учителя. Мы оцениваем 7 методов оценки, 5 методов группировки и 2 метода масштабирования по величине при различных количествах отобранных экспертов на Qwen3-30B-A3B, что даёт 350 конфигураций. Мы обнаружили, что выбор метода оценки оказывает наибольшее влияние, при этом наш новый метод оценки с учётом разнообразия стабильно превосходит предыдущие методы на Qwen3-30B-A3B, DeepSeek-V2-Lite и GPT-OSS-20B. При контролируемом сравнении с одинаковым количеством параметров преобразование MoE в плотную модель превосходит прунинг «плотная-в-плотную» на +6,3 процентных пункта по средней точности на последующих задачах после дистилляции на ~4 миллиардах токенов при скорости обучения в реальном времени, в 1,6 раза превышающей исходную.
Агенты рефлексионного типа полагаются на самостоятельно генерируемые рефлексии в качестве памяти, неявно предполагая, что агенты могут точно диагностировать собственные ошибки. Мы показываем, что это допущение может систематически нарушаться: в средах ALFWorld и HumanEval агенты сохраняют уверенные, но неверные интерпретации задачи и продолжают действовать на их основе при повторных попытках, несмотря на то, что среда каждый раз сбрасывается к корректной постановке задачи. Мы называем такой режим отказа конфабуляцией памяти и вводим показатель повторения рефлексий (Reflection Repetition Rate, RRR) — метрику на основе журналов, выявляющую повторное использование ошибочного рефлексивного содержимого. С помощью RRR мы идентифицируем 16 «замороженных» сред в ALFWorld, где ни одно из 121 рефлексивных сообщений не содержит упоминания правильного целевого объекта, и 4 аналогичных случая в HumanEval. Наше решение заменяет открытую самодиагностику программным извлечением сигналов сбоя на уровне траектории, что увеличивает долю упоминаний правильного объекта с 0% до 86%, снижает RRR с 0,64 до 0,10 и позволяет решить 3 из 16 «замороженных» сред ALFWorld, что указывает на то, что рефлексивная память может укреплять ложные убеждения, а не исправлять их.
Пассивная гиперспектральная съемка в длинноволновом инфракрасном (ДИК) диапазоне при дистанционной геометрии зависит от атмосферного поглощения и излучения, а также от отраженной радиации, что делает атмосферную компенсацию необходимой для получения информации о целевом объекте. Несмотря на свою важность, эта компенсация часто упускается из виду из-за практических и модельных трудностей. В данной работе мы представляем легковесную глубокую нейросетевую архитектуру на основе наборов данных, которая принимает на вход многократные измерения радиации, собранные на различных дистанциях, и совместно оценивает пропускание, атмосферное фоновое излучение и общий спектр нисходящего излучения. Мы анализируем полученное представление с помощью разреженного автоэнкодера и обнаруживаем, что некоторые латентные признаки активируются на географически связанных подмножествах тестовых данных, несмотря на отсутствие координатной разметки. Эксперименты на дистанционном ДИК-наборе данных, сгенерированном с помощью MODTRAN, демонстрируют низкое спектральное искажение для всех оцениваемых продуктов. Набор данных и код доступны по адресу: https://factral.co/SAE-LWIR/
Кросс-видовая геолокация оценивает географическое положение наземного изображения путем его сопоставления с базой данных аэрофотоснимков. Существующие методы решают эту задачу либо с помощью широкомасштабного поиска, либо точной оценки позы, но не обеих одновременно: методы, основанные на поиске, обеспечивают поиск на большой площади ценой точности локализации, в то время как методы оценки позы достигают высокой точности лишь в узком пространстве поиска. Наивное каскадирование таких конвейеров приводит к распространению ошибок и несогласованным представлениям признаков. Мы формулируем кросс-видовую геолокацию как единую задачу, требующую одновременного поиска в масштабе города и точной оценки позы с тремя степенями свободы. Мы предлагаем CIPER (трансформер для поиска изображений и оценки позы по кросс-видовым данным) — единую архитектуру, которая совместно выполняет обе задачи за счет взаимовыгодного обучения признаков. CIPER использует общий кодировщик-трансформер с токенами, специфичными для каждой задачи, чтобы разделить глобальные признаки поиска и пространственные подсказки для локализации. Для преодоления большого разрыва в доменах между наземными и аэрофотоснимками мы вводим двунаправленный декодер позы-трансформер, который использует наземные признаки в качестве пространственных запросов для двустороннего кросс-внимания. Стратегия предсказания множества объектов дополнительно обеспечивает устойчивую регрессию с тремя степенями свободы в рамках единой многозадачной целевой функции. Эксперименты на VIGOR, KITTI и Ford Multi-AV демонстрируют конкурентоспособную производительность, особенно в условиях ограниченного поля зрения и произвольной ориентации. Код доступен по адресу https://github.com/yurimjeon1892/CIPER.
Безэталонные метрики достоверности проверяют каждое атомарное утверждение модели на соответствие истине и всё чаще применяются для оценки генерации с привязкой к фактам. Мы показываем, что у них есть общая слепая зона: они измеряют только точность — подтверждаются ли приведённые утверждения? — и тем самым поощряют воздержание, поскольку модель может получить почти идеальную оценку достоверности, практически ничего не говоря. Мы делаем это измеримым с помощью телеметрии Формулы-1 — области, где стратегическая истина выводится детерминированно и, что критически важно, полностью: для каждого решения мы знаем полный набор фактов, которые имели значение. Эта полнота — отсутствующая в бенчмарках достоверности для открытых предметных областей — позволяет нам точно измерить полноту (охват релевантных фактов) наряду с точностью. На многоязычном (EN/ES/PT) бенчмарке из 7 253 экземпляров решений, охватывающих 150 гонок, самая точная передовая модель покрывает менее половины релевантных фактов и занимает последнее место по F-мере, так что требование покрытия переупорядочивает системы; тот же эффект повторяется во второй предметной области с полным оракулом (прогнозы погоды NOAA). Абляция промптов показывает, что низкая полнота не является артефактом недостаточного промптинга: явная просьба к моделям быть исчерпывающими не устраняет разрыв. Мы объединяем достоверность с покрытием в единую оценку, валидируем метрику (контролируемое возмущение; согласие между извлекателем на основе регулярных выражений без использования модели и извлекателем на основе LLM другого семейства, коэффициент Спирмена на уровне систем 1.0) и предлагаем метод генерации, направляемой верификатором, который улучшает точность и полноту без использования эталонов. Мы публикуем бенчмарк, структурированные аннотации, метрику, базовые модели и интерактивное демо.
Большие языковые модели (LLM) предлагают многообещающий подход к машинному переводу (МП) для языков с крайне ограниченными ресурсами, включая лингвистические ресурсы посредством контекстного обучения. Однако LLM часто испытывают трудности с эффективным применением грамматической информации при переводе. Вдохновленные недавними успехами в области рассуждений по цепочке мыслей, мы исследуем, может ли машинный перевод с ограниченными ресурсами выиграть от структурированных промежуточных этапов лингвистического анализа и грамматических рассуждений. Мы предлагаем конвейер для автоматической генерации пошаговых цепочек лингвистических рассуждений на основе древовидных банков данных Universal Dependencies, словарей и банков грамматических правил. Мы оцениваем эти цепочки в трех условиях: контекстное обучение (ICL), контролируемая точная настройка (SFT) и точная настройка с подкреплением (RFT), на примере языков сибо и чинтанг в качестве тестовых случаев. Наши результаты показывают, что цепочки лингвистических рассуждений наиболее эффективны в качестве руководства во время вывода: при контекстном обучении надежные цепочки для конкретных предложений значительно улучшают качество перевода для большинства моделей, языков и метрик. Напротив, использование цепочек лингвистических рассуждений в качестве обучающих данных дает меньшие и менее стабильные улучшения, поскольку модели усваивают формат цепочек, но часто генерируют ошибочное содержание. Эти результаты свидетельствуют о том, что LLM могут использовать грамматическую информацию для машинного перевода с ограниченными ресурсами при наличии надежных лингвистических анализов, в то время как обучение генерации таких анализов остается серьезным узким местом.
Корпоративные графы свойств сильно различаются по структуре схем, внутренней терминологии, предметным допущениям, регламентным ограничениям и шаблонам взаимодействия пользователей. Следовательно, бенчмарк Text2Cypher, соответствующий условиям развертывания, отражает вопросы, которые пользователи и агенты на самом деле задают этому графу. Создание такого бенчмарка затруднительно, поскольку схемы и значения уникальны, а структура графа меняется со временем. Каждая пара «естественно-языковой запрос — Cypher-запрос» также должна быть выполнимой, использовать реальные сущности графа, сохранять разнообразие и оставаться сбалансированной по типам запросов и уровням сложности. Мы представляем PIPE-Cypher — локальный конвейер генерации бенчмарков, который преобразует живой граф свойств и необязательные затравочные запросы из вопросов клиентов, журналов аналитиков или вызовов инструментов агентов в сбалансированные бенчмарки преобразования естественного языка в Cypher. PIPE-Cypher объединяет профилирование схем, обратное уточнение запросов, ограниченную генерацию, детерминированное управление Cypher, проверку выполнения, редактирование, контроль разнообразия и калиброванный локальный LLM-оценщик. Используя локальную генерацию и оценку на базе Qwen3.5-9B, PIPE-Cypher экспортирует 3000 принятых примеров FinBench/SNB, выполняет три проверенных набора абляционных экспериментов, калибрует поведение оценщика с помощью человеческих меток и оценивает 11 локальных моделей нижнего уровня. Полученный бенчмарк является намеренно дискриминативным: перенос без обучения (zero-shot) слаб, тогда как контроль с несколькими примерами (few-shot) показывает, что наборы примеров, специфичные для схемы, могут помочь совместимым семействам моделей. В совокупности PIPE-Cypher делает бенчмаркинг Text2Cypher повторяемым процессом, который развивается вместе с графом, его пользователями и целевыми нагрузками.
我们提出EMMA,一种融合物理信息的多模态框架,能够直接从原始视频、音频和基于图像的时间序列观测数据中恢复系统的所有可识别动力学参数。与先前仅依赖视频的方法不同(这些方法在处理遮挡状态、隐藏驱动输入或假设已知初始条件和坐标系时存在困难),EMMA在统一的连续时间模型中对显式参数、隐式动力学分量和校准不变量进行联合推理。EMMA利用液态时间常数(LTC)网络从异质模态中学习潜在动力学,同时通过物理约束损失函数确保与主导微分方程的一致性。统一的特征管道实现了视频轨迹、声学特征和图表衍生测量之间的对齐,使EMMA能够在受迫、隐式和多变量动力学条件下估计参数,无需分割掩码、可微渲染或专用传感器。在超过100个场景中(包括五个标准动力学基准(75个Delfys视频)、具有隐藏输入的真实世界巡视器和四旋翼系统,以及涵盖生物和混沌系统的仿真图表案例研究),EMMA实现了稳健的多参数恢复,并显著优于现有的单模态和方程发现基线方法。我们的结果确立了EMMA作为从机会性多模态数据中提取物理一致模型的一种通用、可扩展的解决方案。代码和数据详见:https://github.com/ImpactLabASU/EMMA-CVPR2026