Ежедневно отобранные исследовательские статьи по ИИ с переводами
Клонирование движения камеры из эталонных видео является важной задачей в генерации видео, поскольку видео обеспечивают интуитивное и точное управление. Существующие методы либо напрямую используют параметрические представления, которые не справляются с многокадровой генерацией, либо синтезируют кросс-парные данные, страдающие от нехватки данных, что приводит к низкой производительности при клонировании сложных движений камеры. Для решения этих проблем мы вводим общее представление движения камеры, кодирующее камеры как сеточные видео движения. Эта сетка камеры визуально представляет параметры камеры и поддерживает интеграцию разнообразных траекторий для многокадровой генерации видео. Основываясь на этом, мы предлагаем OmniDirector — унифицированную структуру, обученную на миллионах пар «сетка камеры — видео», которая координирует персонажи, действия и камеры для обеспечения управления на уровне режиссера для мультимодальных диффузионных трансформеров. Кроме того, мы разрабатываем новый иерархический агент расширения подсказок, который гармонично интегрирует различные управляющие сигналы путем систематического описания движения камеры и визуального содержимого на основе понимания взаимосвязей сигналов. Обширные эксперименты демонстрируют превосходную производительность и выдающуюся управляемость нашей структуры. Страница проекта: https://ymlinfeng.github.io/OmniDirector.github.io/
Последние достижения в области агентного обучения с подкреплением (Reinforcement Learning, RL) существенно улучшили многораундовые способности больших языковых моделей-агентов к использованию инструментов. Однако большинство существующих методов распределяет кредит на основе грубых эвристических единиц, таких как границы вызовов инструментов или фиксированные рабочие процессы, что затрудняет идентификацию того, какие промежуточные решения влияют на итоговые результаты. В данной работе мы исследуем агентное RL с двух точек зрения: где выполнять ветвление и как назначать кредит после ветвления. Наш пилотный анализ показывает, что влиятельные точки принятия решений широко распределены по всей сгенерированной последовательности, а не сконцентрированы на вызовах инструментов, при этом энтропия токенов сама по себе не отражает их влияние на конечные результаты. Руководствуясь этими наблюдениями, мы предлагаем Agentic Procedural Policy Optimization (APPO), который переносит ветвление и назначение кредита с грубых единиц взаимодействия на мелкозернистые точки принятия решений в последовательности. APPO выбирает места ветвления с помощью показателя ветвления (Branching Score), который объединяет неопределенность токенов с обусловленными политикой приростами правдоподобия последующих продолжений, что обеспечивает более целенаправленное исследование, отфильтровывая ложные позиции с высокой энтропией. Кроме того, вводится масштабирование преимуществ на уровне процедуры (procedure-level advantage scaling) для более эффективного распределения кредита между разветвленными траекториями. Эксперименты на 13 эталонных тестах показывают, что APPO последовательно улучшает сильные агентные RL-базисы почти на 4 пункта, сохраняя при этом эффективность вызовов инструментов и интерпретируемость поведения.
Несмотря на недавний прогресс, агенты на основе больших языковых моделей (LLM) по-прежнему испытывают трудности с рассуждением на основе длинных историй взаимодействия. Хотя современные агенты с расширенной памятью полагаются на статическую парадигму «извлеки-затем-рассуждай», такая жесткая конвейерная конструкция не позволяет им динамически адаптировать доступ к памяти в зависимости от промежуточных свидетельств, обнаруживаемых в ходе вывода. Чтобы устранить этот пробел, мы предлагаем MRAgent — архитектуру, которая объединяет ассоциативный граф памяти с механизмом активной реконструкции. Мы представляем память в виде графа «Сигнал-Тег-Содержание», где ассоциативные теги служат семантическими мостами, соединяющими мелкозернистые сигналы с содержимым памяти. Работая на этой структуре, наш механизм активной реконструкции непосредственно интегрирует рассуждения LLM в процесс доступа к памяти, позволяя агенту итеративно исследовать и обрезать пути извлечения на основе накопленных свидетельств. Это гарантирует, что извлечение памяти динамически адаптируется к контексту рассуждения, избегая при этом комбинаторного взрыва, вызванного неограниченным расширением. Эксперименты на эталоне LoCoMo и эталоне LongMemEval демонстрируют значительные улучшения по сравнению с сильными базовыми моделями (до 23%), а также существенное снижение затрат токенов и времени выполнения, что подчеркивает эффективность активной и ассоциативной реконструкции для долгосрочного рассуждения с памятью.
Крупные языковые модели (LLM) претерпевают фундаментальную трансформацию от генераторов диалоговых ответов к интегрированным системам ИИ, способным к рассуждению, действию, запоминанию и самоусовершенствованию. Мы концептуализируем этот переход как сдвиг от чат-бота к цифровому коллеге: от диалоговых ответов к устойчивой работе. Мы организуем этот переход по двум тесно связанным измерениям. Во-первых, на уровне когнитивного ядра LLM продвигаются от систем «быстрого мышления» эпохи чат-ботов, основанных на предсказании следующего токена, к «думающим» LLM, использующим вычисления во время вывода, цепочки рассуждений (Chain-of-Thought), рефлексию, процесс-супервизию и обучение с подкреплением для обеспечения более обдуманного и надежного познания. Во-вторых, на уровне выполнения задач с инструментальной поддержкой LLM переходят от агентов, вызывающих инструменты ad hoc, к рабочим станциям типа OpenClaw, оснащенным постоянными рабочими пространствами, навыками, циклами проверки и управления. Парадигма «Рабочее пространство + Навык» превращает эпизодическое использование инструментов в работу коллеги благодаря сохранению состояния, повторно используемым процедурам, завершению задач и повторному использованию опыта. Мы анализируем сдвиги в построении данных от пар «инструкция-ответ» к траекториям «Состояние-Действие-Наблюдение», а также в оценке — от статических бенчмарков к изолированным, аудируемым, саморазвивающимся экосистемам ИИ.
Недавний успех роевых агентов изменил парадигму агентов на основе больших языковых моделей (LLM) от однопоточных рабочих процессов к многогагентным системам, подчеркивая важность оркестрации агентов для декомпозиции задач и сотрудничества. Однако существующие фреймворки оркестрации ограничены узким набором модальностей и с трудом обобщаются на более сложные сценарии, где сосуществуют и взаимодействуют разнородные модальности. Это ограничение становится особенно заметным в омнимодальных сценариях, где задачи требуют единого понимания и координации разнообразных входных данных, таких как текст, изображение, аудио и видео. В данной работе мы предлагаем Orchestra-o1 — омнимодальный фреймворк оркестрации агентов, предназначенный для поддержки эффективного сотрудничества агентов в рамках нескольких модальностей. Orchestra-o1 вводит унифицированный механизм оркестрации, обеспечивающий декомпозицию задач с учетом модальностей, онлайн-специализацию подагентов и параллельное выполнение подзадач. Такая масштабируемая архитектура позволяет агентным системам эффективно решать сложные реальные задачи, включающие разнородные источники информации, превосходя второй лучший подход на 10,3% точности в бенчмарке OmniGAIA. Кроме того, мы представляем групповую оптимизацию политики, согласованную с решениями (DA-GRPO) — эффективный метод агентного обучения с подкреплением для обучения Orchestra-o1-8B, который также достигает передовых результатов по сравнению со всеми существующими открытыми омнимодальными агентами.
Производительность ИИ-агентов критически зависит от исполнительной обвязки (runtime harness), включающей промпты, инструменты, память и поток управления, которые опосредуют то, как модель наблюдает, рассуждает и действует. Однако сегодняшние обвязки в значительной степени остаются создаваемыми вручную и статичными: каждая новая модель или задача по-прежнему требует индивидуальной надстройки, а богатые трассы, порождаемые в процессе выполнения, редко перерабатываются в систематические улучшения. Мы представляем HarnessX — фабрику для компоновки адаптивных и развивающихся агентских обвязок. HarnessX собирает типизированные примитивы обвязки посредством алгебры подстановок, адаптирует их через AEGIS — многоагентный эволюционный движок, управляемый трассами и основанный на операциональном зеркале между символьной адаптацией и обучением с подкреплением, — и замыкает петлю обвязка-модель, преобразуя траектории как в обновления обвязки, так и в сигнал обучения модели. На пяти бенчмарках (ALFWorld, GAIA, WebShop, tau³-Bench и SWE-bench Verified) HarnessX достигает среднего прироста +14,5% (до +44,0%), причем наибольший прирост наблюдается там, где базовые показатели наименьшие. Эти результаты показывают, что прогресс агентов не обязательно достигается только за счет масштабирования моделей: компоновка и эволюция интерфейсов выполнения на основе обратной связи от исполнения является действенным и взаимодополняющим рычагом. Полный код будет опубликован в открытом доступе в одном из будущих релизов.
Генерация с дополнением извлечением выходит за рамки текста и переходит к длинному эгоцентрическому видео, где системы должны выбирать релевантные запросу фрагменты в различных модальностях и временных разрешениях. Однако прогресс в VideoRAG ограничен двумя пробелами: существующие бенчмарки позволяют отвечать на запросы без видео, скрывая ошибки извлечения, а предыдущие методы применяют единую конфигурацию модальности-разрешения для каждого запроса, игнорируя изменчивость на уровне фрагментов. Мы устраняем оба пробела, представляя V-RAGBench — бенчмарк троек «запрос, фрагмент свидетельства, ответ», обеспечивающий достоверную раздельную оценку извлечения и генерации, и CARVE — простой метод, запускающий параллельные извлекатели в различных конфигурациях и использующий адаптивное к фрагментам переранжирование для определения выигрышной конфигурации для каждого фрагмента. Затем каждый фрагмент поступает в генератор в своей выигрышной конфигурации, выбранной во время извлечения, что дает перемежающуюся форму свидетельства, где решение на уровне фрагментов распространяется на оба этапа. CARVE превосходит восемь недавних базовых методов VideoRAG, причем фрагменты, подаваемые в генератор, чередуют несколько конфигураций, а не используют единую — поведение, недостижимое для методов на уровне запросов.
Современные автоматизированные конвейеры для аудиовизуального вопросно-ответного взаимодействия (QA) обычно следуют парадигме «видео-субтитры-QA». Однако такие методы, как правило, сегментируют видео на короткие фрагменты и генерируют отдельные описания для аудиальной и визуальной модальностей. Эта декомпозированная обработка разрывает естественные связи между звуками и их визуальными источниками, а независимая обработка фрагментов часто приводит к несогласованным описаниям одного и того же объекта в разных сегментах. Кроме того, объединение понимания длинных текстов и синтеза QA в один этап часто ограничивает модели локальными событиями, порождая вопросы, лишенные долгосрочных временных связей и глубокого кросс-модального рассуждения. Для решения этих проблем мы предлагаем автоматизированный механизм работы с данными, включающий два компонента: (1) **Субъектно-ориентированное видеосценарное описание** преобразует видео в структурированные сценарии, содержащие резюме, списки основных субъектов и посегментные аудиовизуальные описания. Список субъектов служит глобальной априорной информацией для обеспечения референтной согласованности между сегментами и восстановления аудиовизуальных связей. (2) **Генерация QA на основе подсказок** побуждает модели сначала извлекать из сценария кросс-сегментные и мультимодальные подсказки, а затем формировать пары вопрос-ответ на основе этих высокоценных подсказок. Используя этот конвейер, мы создаем набор данных для инструктивного дообучения OmniVideo-100K и тестовый набор с верификацией человеком OmniVideo-Test. Дообучение VITA-1.5, Qwen2.5-Omni-7B и Qwen3-Omni-30B на OmniVideo-100K дает прирост производительности до 20,59% на OmniVideo-Test, демонстрируя сильную обобщающую способность (улучшения до 12,64%) на известных эталонных тестах, таких как Daily-Omni и JointAVBench.
За последнее десятилетие создание общего искусственного интеллекта человеческого уровня перешло из разряда далеких от реальности спекуляций в конкретную цель на ближайшее десятилетие для многих крупнейших организаций в области ИИ. Достижение этой цели будет иметь глубокие и далеко идущие последствия для человеческого общества, что порождает множество сложных вопросов на предстоящее десятилетие. Данный доклад исследует, как сам ИИ может продолжать развиваться в мире после появления AGI в рамках континуума машинного интеллекта. Конечная точка этого континуума — универсальный ИИ — теоретически хорошо изучена, что обеспечивает некоторую формальную основу для основного фокуса доклада: перехода от AGI человеческого уровня к искусственному общему сверхинтеллекту, который интуитивно можно понимать как систему, более интеллектуальную и когнитивно способную, чем крупные организации людей. После характеристики ASI в докладе обсуждаются четыре потенциальных пути от AGI к ASI: масштабирование AGI, смена парадигм в ИИ, рекурсивное улучшение и возникновение ASI из крупномасштабных многоагентных коллективов. Затем рассматриваются возможные трения и узкие места на этих путях. Определение того, будет ли влияние этих трений незначительным или существенным, порождает ряд конкретных открытых исследовательских вопросов. Из-за большой неопределенности в прогнозировании прогресса ASI нельзя исключать, что развитие ИИ может продолжить ускоряться в ближайшие годы. Это может означать, что представление об едином трансформационном скачкообразном изменении, вызванном внедрением AGI человеческого уровня в наше общество, может быть неточным. Более уместным может оказаться перспектива серии трансформационных общественных изменений, вызванных прогрессом и прорывами, обеспечиваемыми ИИ во многих областях науки и техники. Подготовка к такой перспективе требует масштабных междисциплинарных усилий глобального охвата и интереса.
Мы идентифицируем новое измерение для повышения разнообразия генераций (rollout diversity) в групповой относительной оптимизации политики (GRPO) для больших языковых моделей. Хотя GRPO опирается на разнообразные генерации, преобладающие стратегии в основном увеличивают разнообразие путем внесения большей случайности на уровне токенов, что может приводить к пошаговому шуму и несвязным траекториям. Мы обнаруживаем, что меньшие модели в рамках одного семейства моделей изначально демонстрируют более высокое разнообразие на уровне политики, на что указывает их превосходный показатель pass@k по сравнению с более крупными аналогами при увеличении числа выборок. В отличие от шума на уровне токенов, это разнообразие является темпорально коррелированным, сохраняет логическую согласованность и обеспечивает структурированные исследовательские сигналы для оценки градиента. Таким образом, мы предлагаем S2L-PO (Small-to-Large Policy Optimization) — фреймворк, который использует фиксированные малые модели в качестве естественных исследователей для обучения более крупных моделей. Для баланса между исследованием и эксплуатацией мы разрабатываем стратегию прогрессивного отжига, которая переходит от офлайн-генераций малой модели к собственным выборкам крупного обучаемого. Этот сдвиг элегантно избегает падения производительности в середине обучения, вызванного ограниченными возможностями малой модели, обеспечивая более быструю сходимость и открывая более высокий потолок производительности. S2L-PO улучшает точность на различных бенчмарках математических рассуждений (например, +8,8% на AIME 24 при использовании исследователя с 1,7 млрд параметров для направления модели с 8 млрд параметров), при этом снижая вычислительные затраты на генерации.
Большие языковые модели (LLM) выполняют инференс, следуя фиксированной глубине и порядку, при нерекуррентном выполнении всех слоёв. Мы обнаружили широкое существование свободных от обучения, гибких, динамических программ слоёв (PoLar), где предобученные слои могут упаковываться как модули, а затем пропускаться или повторяться, формируя настраиваемую программу для каждого входного сигнала. Для большинства входных сигналов существенно более короткие выполнения программ могут достичь той же или лучшей точности, в то время как неверные предсказания исходной LLM могут быть исправлены альтернативными программами с меньшим числом слоёв. Эти наблюдения указывают на то, что инференс допускает множество правильных скрытых вычислений за пределами стандартного прямого прохода. Для эффективного достижения PoLar на практике мы предлагаем легковесную сеть предсказания PoLar, которая учится генерировать программы выполнения, динамически пропускающие или повторяющие предобученные слои для каждого входного сигнала. Эксперименты на бенчмарках математических рассуждений показывают, что PoLar последовательно улучшает точность по сравнению со стандартным инференсом и предыдущими методами динамической глубины, часто при выполнении меньшего числа слоёв, и что эти выгоды сохраняются при оценке вне распределения. Наши результаты позволяют предположить, что выполнение с фиксированной глубиной захватывает лишь узкое подмножество скрытой способности рассуждения LLM.
Большие языковые модели (БЯМ) в настоящее время достигают результатов на уровне экспертов при сдаче медицинских лицензионных экзаменов, что подкрепляет предположение о том, что высокие баллы подразумевают безопасность медицинских суждений, в то время как пациенты всё чаще используют их для получения медицинских советов. Мы показываем, что это предположение несостоятельно: при внедрении вводящего в заблуждение контекста в вопросы, на которые БЯМ первоначально отвечали правильно, они отказываются от правильного ответа. Мы называем способность сохранять верное суждение в условиях враждебного контекста эпистемической устойчивостью и вводим MedMisBench для её измерения. MedMisBench содержит 10 932 медицинских вопроса и 48 889 пар «вводящий в заблуждение контекст — вариант ответа», охватывающих медицинские рассуждения, агентные способности и оценку пути пациента. На 11 конфигурациях моделей средняя точность падает с 71,1% на исходных вопросах до 38,0% в условиях целенаправленного вводящего в заблуждение контекста, с успехом атаки в 51,5% случаев. Наиболее разрушительными являются формальные, построенные по типу правил фабрикации: ложные утверждения, поданные в авторитетной рамке, достигают 69,5% успеха атаки, а утверждения «отравления исключениями» — 64,1%. Клиническая панель из 14 специалистов из 7 стран выявила серьёзный потенциальный вред в 38,2% рассмотренных случаев. MedMisBench обнажает структурное слепое пятно в оценке БЯМ в медицинских условиях: существующие тесты измеряют то, что модели знают, но не то, сохраняют ли они правильное медицинское суждение в условиях вводящего в заблуждение контента.
Пользователи полагаются на трассировки выполнения для наблюдения за поведением агента, диагностики сбоев и обеспечения подотчетности. Эти трассировки содержат детальные процедурные сведения, включая вызовы инструментов, промежуточные решения и логику восстановления после ошибок. Однако эта детализация может раскрыть приватные процедурные навыки, позволяя нисходящим методам восстанавливать ключевые формулы, пороговые значения и стратегии без доступа к весам модели или файлам навыков. Для количественной оценки этого риска и оценки защиты мы создаем CapTraceBench — бенчмарк из 75 специализированных долгосрочных задач и 154 тщательно отобранных навыков из семи областей. Мы также представляем RedAct (https://github.com/XuShuwenn/RedAct) — фреймворк для защищенного выпуска трассировок, который локализует защищаемую ключевую информацию, переписывает трассировки с сохранением критически важных для верификатора доказательств и встраивает поведенческие водяные знаки для последующего анализа происхождения. При использовании репрезентативных методов повторного использования трассировок RedAct снижает нормализованный перенос навыков (NST) с 44,7–67,1% на исходных трассировках до уровня ниже базового значения без навыков, сохраняя при этом аудиторские доказательства. Его автономные поведенческие водяные знаки достигают 93,6–100,0% истинного обнаружения при частоте ложных срабатываний не более 1,9%. Эти результаты представляют публичные трассировки агентов как интерфейсы безопасности и показывают, что выборочное редактирование может снизить утечку процедурных возможностей без удаления аудиторских доказательств.
Агенты кодирования, работающие на основе больших языковых моделей, продемонстрировали высокую производительность при решении задач программной инженерии. Однако большинство таких агентов воспринимают репозитории практически полностью как текст, что отличается от того, как разработчики-люди используют визуальные структуры, такие как иерархии папок и зависимости, для ориентации в крупных базах кода. С появлением мультимодальных больших языковых моделей (MLLM) остается открытым вопрос о том, могут ли агенты эффективно использовать визуальные представления репозиториев. В данной статье представлено первое систематическое эмпирическое исследование визуальных представлений репозиториев для LLM-агентов, направленное на разрешение проблем на уровне репозитория. Мы оцениваем четыре современные мультимодальные модели. Наши результаты показывают, что строго визуальная настройка снижает точность и увеличивает затраты токенов, поскольку агентам не хватает достаточных символьных деталей, и они компенсируют это повторными визуальными запросами. Напротив, интеграция визуальных графов структуры репозитория в качестве дополнительной модальности наряду со стандартными текстовыми интерфейсами помогает агентам более эффективно понимать структуру: потребление входных токенов снижается до 26%, при этом точность разрешения проблем сохраняется или улучшается. Визуализация наиболее полезна на этапе локализации ошибок и когда агент автономно контролирует глубину исследования. Эти результаты указывают на практический гибридный текстово-визуальный дизайн для агентов кодирования следующего поколения.
Большие языковые модели (LLM) широко используются в системах «текст-в-изображение» (T2I), однако они, как правило, ограничены кодированием текста, в то время как шумоподавление осуществляется недавно обученными генеративными магистралями. Появление автоэнкодеров представлений (RAE) смещает цель генерации в сторону семантически структурированных визуальных представлений, создавая латентное пространство, более совместимое с априорными знаниями предобученных LLM. Вдохновляясь мультимодальными LLM (MLLM), где проектора MLP достаточно для выравнивания чистых визуальных представлений с предобученной LLM, мы перепрофилируем саму MLLM в качестве энкодера зашумленных представлений, распространяя этот механизм с чистых на зашумленные входные данные. Мы представляем RepFusion, который использует результирующие выходы MLLM как сигнал обусловленности для диффузионного трансформера. При контролируемых сравнениях в рамках схожих вычислительных бюджетов при инференсе RepFusion превосходит базовые подходы, выделяющие сопоставимую вычислительную мощность на инициализированные с нуля деноизеры. Эти результаты демонстрируют, что MLLM предоставляют сильные априорные знания для шумоподавления визуальных представлений, и что, обусловливаясь на эволюционирующих зашумленных представлениях, вычислительные ресурсы во время тестирования могут быть продуктивно потрачены на повторное применение MLLM в современных системах T2I.
Воплощённые мировые модели стали ключевой парадигмой для визуального принятия решений роботами и интерактивного симулирования окружающей среды. Однако традиционные воплощённые архитектуры опираются на низкоразмерные структурированные векторы действий (например, углы шарниров и позы конечных эффекторов), которые страдают от ограниченной выразительной способности, слабой обобщаемости для различных воплощений и неестественного моделирования динамики при сложных физических взаимодействиях. Для преодоления этих ограничений в данной статье предлагается iMac (Image as Action Control) — новая унифицированная парадигма управления, которая рассматривает необработанные визуальные изображения как естественные представления действий для воплощённых мировых моделей. Отходя от традиционного явного кинематического кодирования действий, iMac формулирует непрерывное визуальное манипулирование в виде токенов действий на основе изображений, которые внутренне инкапсулируют пространственные намерения движения, интерактивные геометрические ограничения и тонкие физические динамики. Мы построили воплощённую архитектуру с двумя ветвями, состоящую из кодировщика изображений-действий и предиктора динамического мира: первый сжимает целевые визуальные изображения в компактные встраивания действий, а второй изучает правила перехода окружения, обусловленные действиями на основе изображений, для достижения высокоточного предсказания будущего состояния и замкнутого воплощённого управления. Проведены обширные эксперименты на общедоступных эталонных тестах воплощённого манипулирования и реальных робототехнических сценариях. Результаты демонстрируют, что iMac превосходит базовые методы управления на основе векторов действий по точности предсказания, успешности выполнения задач и способности к обобщению на различные сцены. Более того, наша конструкция действий на основе изображений устраняет зависимость от вручную определённых пространств действий, реализуя гибкое и универсальное управление для гетерогенных воплощённых агентов. Данная работа предлагает инновационную визуально-действенную перспективу для воплощённых мировых моделей, предоставляя простую, но эффективную парадигму для масштабируемого роботизированного восприятия и манипулирования.
В данном отчете мы представляем Hy-Embodied-0.5-VLA (сокращенно HyVLA-0.5) — сквозную систему, охватывающую полный стек обучения роботов: сбор данных, проектирование модели, продолженное предварительное обучение и контролируемая донастройка, пост-обучение с подкреплением (RL) и развертывание в реальном мире. Каждый компонент выполняет свою четко определенную роль в этом стеке.
Современные Lean-доказатели теорем достигают высокой производительности лишь при значительных вычислительных затратах на обучение и инференс, что отчасти обусловлено дефицитом верифицированных данных доказательств и длинными цепочками рассуждений при формальном поиске доказательств, что делает как контролируемую тонкую настройку (SFT), так и сэмплирование затратными. Мы представляем Pythagoras-Prover — семейство вычислительно эффективных Lean-доказателей теорем с открытым исходным кодом, созданных для практических вычислительных бюджетов. Семейство охватывает две парадигмы генерации: авторегрессионные модели с 4B и 32B параметрами, а также первую концептуальную диффузионную модель доказателя (4B), которая итеративно уточняет Lean-доказательства во время инференса. Для эффективности обучения мы построили верифицированный на Lean корпус, стратифицированный по задачам лёгкой, средней и сложной сложности для учебной SFT, благодаря чему модели постепенно овладевают навыками доказательства — от более коротких и простых к более длинным и сложным. В ходе SFT динамический фильтр рассуждений о доказательствах сохраняет информативные цепочки, удерживая каждый экземпляр в пределах контекстного бюджета в 8k токенов. Мы также вводим Augmented Lean Formalisation (ALF), который расширяет скудные верифицированные корпуса за счёт вариантов формальных утверждений, пополняемых с помощью самодистилляции для получения дополнительного обучающего сигнала без полной формальной верификации каждой мутированной части. Возмущая известные задачи с сохранением их формального характера, ALF снижает зависимость от поверхностной формы любого утверждения. Эмпирически Pythagoras-Prover-4B превосходит DeepSeek-Prover-V2-671B по показателю pass@32 на MiniF2F-Test (86,1% против 82,4%) при примерно в 167 раз меньшем числе параметров, а Pythagoras-Prover-32B устанавливает открытый рекорд с результатом 93,0% на MiniF2F-Test и решает 93 из 672 задач PutnamBench. Мы выпускаем MiniF2F-ALF — бенчмарк, чувствительный к контаминации, мутированный с помощью ALF, на котором все протестированные модели теряют точность; здесь наша 32B модель остаётся сильнейшей, а 4B модель сравнивается с предыдущим рекордсменом Goedel-Prover-V2-32B.
По мере того как обзоры, сгенерированные ИИ, переходят от экспериментальных инструментов в инфраструктуру рецензирования, основные опасения по поводу устойчивости были сосредоточены на явных атаках, таких как скрытые инструкции и инъекция подсказок. Мы изучаем более сложный и более актуальный с политической точки зрения режим отказа: без скрытого текста, без инъекций подсказок и без изменений методов, экспериментов, рисунков, уравнений, доказательств или численных результатов. Злоумышленник изменяет только контент на уровне презентации, такой как аннотация, формулировка вклада, связанные работы, обсуждение и структура повествования. Мы вводим состязательную переупаковку: замкнутую атаку, которая использует обратную связь от ИИ-рецензента для поиска изменений на уровне презентации при сохранении фиксированными научных данных. На трех популярных ИИ-рецензентах состязательная переупаковка достигает 75,1% успешности атаки и среднего прироста оценки +1,21/10. Этот эффект не объясняется обычной шлифовкой прозы. Мы также показываем, что стратегии, изменяющие способ интерпретации статьи рецензентом, такие как перепозиционирование связанных работ и расширение аналитического обсуждения, значительно превосходят поверхностные правки, такие как локальная полировка, форматирование таблиц и блоки алгоритмов. Наш анализ выявляет два более глубоких структурных режима отказа. Во-первых, ИИ-рецензентов легче впечатлить, чем убедить: выделение сильных сторон надежно повышает воспринимаемую ценность, в то время как попытки устранить слабые места часто дают обратный эффект. Во-вторых, ИИ-рецензенты могут путать видимость устранения ограничения с его фактическим разрешением, позволяя неизменным данным быть переосмысленными как более сильный научный вклад. Эти результаты показывают, что риск развертывания заключается не только в злонамеренных скрытых инструкциях, но и в появлении самой презентации статьи как поверхности для оптимизации. Мы выпускаем свободный от загрязнений постоянно обновляемый бенчмарк и фреймворк для атак для проверки того, остаются ли ИИ-рецензенты привязанными к научному содержанию при редактировании только презентации.
При применении GRPO для привязки к графическому интерфейсу (GUI Grounding) прогоны (rollouts) выбираются из одного снимка экрана; группы часто оказываются либо полностью неудачными на сложных примерах, либо полностью успешными на простых, что не дает полезного относительного преимущества. Мы предлагаем VISTA (View-Consistent Self-Verified Training) — фреймворк обучения на основе GRPO, который формирует каждую группу сравнения из нескольких сохраняющих цель видов одного и того же экземпляра GUI. Каждый вид создается путем обрезки, сохраняющей целевой элемент видимым и точно переназначающей его рамку, так что прогоны модели сравниваются по семантически эквивалентным, но геометрически различным входам. Для стабилизации генерации коротких координат без превращения обучения с подкреплением в безусловную имитацию VISTA дополнительно добавляет самоверифицируемый кросс-вью якорь: оракул-ответ, оптимизированный с помощью потери с взвешиванием по преимуществу, исключенный из базовой линии группы и активируемый только тогда, когда модель выдала прогон с максимальным вознаграждением. На пяти бенчмарках привязки к GUI и нескольких бэкбоунах Qwen VISTA последовательно улучшает точность привязки. На ScreenSpot-Pro он повышает точность Qwen3-VL 4B/8B/30B-A3B с 55,5/52,7/53,7 до 63,4/65,8/67,0. Анализ робастности дополнительно показывает более высокую точность на худшем виде и более низкую частоту переключений предсказаний.
Недавние достижения в области видео-мировых моделей продемонстрировали беспрецедентную способность синтезировать высококачественные визуальные последовательности. Однако сохраняется фундаментальный разрыв между визуально правдоподобной генерацией видео и функциональными требованиями к мировой модели, особенно в поддержании стабильного и разумного внутреннего состояния на протяжении длительных временных горизонтов. Существующие эталонные тесты в первую очередь оценивают визуальное качество, согласованность движения и соответствие текст-видео, но в значительной степени игнорируют память — ключевую способность мировой модели сохранять согласованность на больших временных интервалах и при сложных взаимодействиях. Для восполнения этого пробела мы представляем MBench — комплексный эталонный тест, предназначенный для количественной оценки и анализа способности к запоминанию у видео-мировых моделей. Мы систематически разлагаем способность к запоминанию видео-мировых моделей на три иерархических и взаимодополняющих базовых измерения: согласованность сущностей, согласованность окружения и причинно-следственную согласованность, которые далее детализируются до 12 измеримых подизмерений для всесторонней характеристики долговременной памяти. Наш эталонный тест построен на тщательно отобранных реальных длинных видеозаписях и оценивается с помощью количественных метрик на основе правил и модели VLM для обеспечения объективной и всесторонней оценки согласованности. Обширная оценка современных передовых видео-мировых моделей выявила критические системные ограничения существующих методов в сохранении долговременного состояния, предоставляя стандартизированный эталонный тест и четкое направление исследований для продвижения данной области.
Мировые модели, которые фиксируют, как действия вызывают физические изменения, позволяют масштабируемому обучению роботов без привязки к специфичным для воплощения меткам действий. Пиксельные видеомодели обеспечивают широкие визуальные априорные знания, но расходуют емкость модели на плотную реконструкцию внешнего вида, тогда как модели прямого действия требуют меток, специфичных для воплощения, что ограничивает масштабируемость. Мы представляем μ_0 — масштабируемую мировую модель, основанную на трехмерных трассах. Вместо прогнозирования плотных пикселей или непосредственного моделирования действий, μ_0 предсказывает гладкие трехмерные траектории для значимых точек взаимодействия (объектов, инструментов, рук и зон контакта), формируя компактный, не зависящий от воплощения интерфейс движений. Для возможности обучения на разнообразных видеоисточниках наша система TraceExtract автоматически извлекает трехмерные обучающие сигналы путем выбора ключевых точек, построения глобально согласованных трасс и ассоциирования сегментов движения с иерархическими текстовыми описаниями на естественном языке. Этот надзор от TraceExtract предобучает μ_0, объединяя предварительно обученный визуально-языковой бэкбон с модульным экспертом по трассам, который представляет каждый запрос через контрольные точки B-сплайна и прогнозирует будущие трассы. Эксперименты показывают, что μ_0 превосходит базовые модели в прогнозировании как двумерных, так и трехмерных трасс, включая модели прогнозирования трасс и токенизированные VLM-методы. Поскольку μ_0 является замороженной и многократно используемой, она может сочетаться с экспертами по действиям для последующего применения на воплощениях роботов. Несмотря на предобучение без действий, результирующие политики, обусловленные трассами, достигают производительности, сопоставимой с VLA-моделями, предобученными с надзором по действиям, такими как π_0. Эти результаты утверждают трехмерные трассы как масштабируемое и переносимое представление для манипуляций, не зависящих от конкретного воплощения.
По мере того как ИИ-системы, состоящие из нескольких агентов на основе языковых моделей, становятся всё более распространёнными, они всё чаще используются для совместного принятия решений: обсуждения, переговоры и выполнение общих задач. Хотя отдельные агенты могут выглядеть хорошо выровненными при тестировании по отдельности, проблемы могут возникать из-за того, как они взаимодействуют друг с другом. Мы представляем Арбитра — агента, предназначенного для мониторинга многоголовых разговоров в реальном времени и выявления участников, которые могут вести себя невыровненно. Арбитр работает в условиях ограниченного «бюджета проверки», то есть должен тщательно решать, как использовать свои ресурсы. Наблюдая за разговором шаг за шагом, он может выбирать: ждать, задать вопрос участнику, изучить внутреннюю информацию, такую как системные промпты или трассы рассуждений, либо зарегистрировать вызывающее беспокойство поведение. В конце он составляет отчёт, в котором указывается вероятный источник невыровненности. Мы оцениваем Арбитра на пяти сценариях разговора, от модельных организмов с рискованными финансовыми советами до агентов, осведомлённых об оценке и сговаривающихся, и тестируем пять конфигураций инструментов возрастающей мощности, а также две базовые модели. Мы обнаружили, что Арбитр надёжно выявляет невыровненных агентов задолго до окончания разговора, причём активные инструменты проверки улучшают как точность, так и скорость обнаружения. Наиболее сложной для обнаружения оказалась невыровненность, вызванная весами, тогда как невыровненность, индуцированная инструкциями, надёжно выявляется даже при пассивном наблюдении. Инструмент журналирования демонстрирует двойственный эффект, улучшая полноту за счёт точности. Эти результаты показывают, что непрерывный мониторинг с учётом бюджета позволяет эффективно улавливать невыровненность, а для контроля многоголовых систем может потребоваться рассматривать аудитора как активного участника процесса. Код доступен по адресу https://github.com/aisilab/arbiter.
Создание аватаров, которые не просто визуально похожи на целевого человека, но и поведенчески узнаваемы, точно воспроизводя его ритм речи, жестикуляцию и динамику выражений лица, остается открытой проблемой. Существующие методы в основном опираются на одиночные статические изображения, которые дают недостаточно информации о личности и не позволяют улавливать динамические двигательные характеристики, в то время как стандартные пиксельные функции не охватывают критически важные для восприятия области лица, определяющие качество аватара. Мы представляем Avatar V — платформу производственного масштаба, которая решает эти ограничения с помощью моделирования личности, обусловленного видеоссылками. Вместо сжатия личности в эмбеддинги фиксированного размера модель напрямую использует полную последовательность токенов эталонного видео, обучаясь воспроизводить как статические атрибуты личности (геометрию лица, текстуру кожи), так и динамические поведенческие паттерны (ритм речи, микровыражения) через внимание к контексту эталонного видео. Мы внедряем Разреженное Эталонное Внимание — асимметричный механизм, обеспечивающий наложение условий на произвольно длинные эталонные последовательности с линейной сложностью; поток представления движений, позволяющий замкнутую передачу стиля речи; а также уточнитель сверхразрешения, учитывающий личность и наследущий полное обусловливание эталонным видео. Эти компоненты поддерживаются механизмом обработки данных, который отбирает более 100 млн тренировочных клипов из 50 млн исходных видео, и пятиэтапным конвейером обучения с предварительным обучением на основе согласования потоков, тонкой настройкой личности, двухфазной дистилляцией (ускорение более чем в 10 раз) и выравниванием с обратной связью от человека (RLHF), развернутым на тысячах GPU. Avatar V генерирует видео 1080p неограниченной длительности, достигая передовых показателей сохранения личности, синхронизации губ и качества генерации на нашем межсценарном эталоне, стабильно превосходя ведущие системы, включая Seedance 2.0, Kling O3 Pro, Veo 3.1 и OmniHuman 1.5, как по автоматическим метрикам, так и по оценкам человека.
Модели генерации видео на основе Diffusion Transformers (DiTs) демонстрируют впечатляющие результаты в видеосинтезе, однако страдают от высокой задержки вывода и вычислительных затрат из-за квадратичной сложности трехмерного внимания. Существующие методы ускорения в основном снижают вычислительную сложность на каждом отдельном шаге шумоподавления с помощью таких методов, как разреженное внимание и KV-кэширование. Однако они жестко придерживаются неотъемлемого ограничения стандартного диффузионного пайплайна: каждый кадр целевой видеопоследовательности должен подвергаться полному, плотному процессу шумоподавления на всех диффузионных временных шагах. Мы замечаем, что из-за соответствующего содержимого и движений между смежными кадрами, когда ключевые кадры с критическими семантическими переходами закреплены, промежуточные состояния других кадров часто следуют более предсказуемым траекториям, что указывает на то, что такой равномерный, плотный процесс шумоподавления по своей сути избыточен для естественных видеоданных. С этой целью мы представляем RhymeFlow — безучебный фреймворк, который разделяет траектории шумоподавления разных кадров. В частности, мы сначала определяем разреженный набор ключевых кадров, доминирующих в латентной семантической эволюции. Затем только эти ключевые кадры подвергаются плотному покадровому шумоподавлению для обеспечения структурной целостности, в то время как неключевые кадры постепенно пропускают шаги шумоподавления, чтобы минимизировать вычислительные затраты. Поскольку пропущенные промежуточные состояния неключевых кадров нарушают временную согласованность на этапах шумоподавления ключевых кадров, что приводит к ухудшению визуального качества, мы дополнительно вводим модуль проекции латентной траектории, который позволяет ключевым кадрам взаимодействовать с полным и временно согласованным представлением последовательности. Обширные эксперименты на текущих моделях генерации видео на основе DiTs показывают, что наш метод превосходит существующие базовые решения с более высокой скоростью вывода и лучшим визуальным качеством.
В адаптации низкого ранга (LoRA) масштабирующий коэффициент α часто рассматривается как mere дополнение к скорости обучения, однако его роль в оптимизации остается плохо понятой. В данной статье мы показываем, что масштабирующий коэффициент α и скорость обучения выполняют разные функции, причем α выступает доминирующим фактором эффективной оптимизации, обеспечивая выигрыши, которые невозможно воспроизвести одним лишь масштабированием скорости обучения. Благодаря сочетанию обширного эмпирического анализа и теоретической основы «Сигнал-Дрейф» мы обнаружили три аспекта механизма масштабирования LoRA: во-первых, спектральное подавление LoRA сглаживает ландшафт оптимизации, делая стандартные гиперпараметры излишне консервативными и создавая разрыв в оптимизации. Во-вторых, при использовании этого сглаживания для ускорения сходимости α превосходит скорость обучения, усиливая целевой сигнал без увеличения коэффициента дрейфа. В-третьих, оптимальный масштабирующий коэффициент демонстрирует сублинейную зависимость от ранга, хорошо описываемую законом квадратного корня с неожиданно большим коэффициентом, что выявляет недостаточное масштабирование существующих эвристик, связанных с рангом. Основываясь на этих выводах, мы предлагаем LoRA-α — минималистичную структуру, которая возвращает α в его принципиальный режим, делая LoRA совместимой со стандартными малыми значениями скорости обучения. Обширные оценки на разнообразных задачах демонстрируют, что LoRA-α последовательно улучшает производительность, одновременно упрощая поиск гиперпараметров и раскрывая обучающий потенциал LoRA.
Активационное управление представляет собой легковесный подход к контролю поведения языковых моделей на этапе логического вывода, однако его успешность или неудача существенно зависят от запроса, концепции, модели и конфигурации управления. Поиск режима и границ успешного управления обычно требует дорогостоящего перебора по сетке и последующей оценки полных авторегрессивных разверток. В данной работе мы исследуем, можно ли предсказать управляемость по внутренним состояниям модели в начале процесса генерации, например, после генерации первых нескольких токенов, и как использовать такой предиктор для повышения вероятности успешного управления. С этой целью мы сначала представляем ASTEER — тестовый набор, включающий 1,4 млн управляемых генераций, охватывающих 150 концепций, каждая из которых помечена как успешное или неудачное управление. Используя этот набор, мы анализируем раннюю динамику декодирования модели, извлекая признаки, которые сравнивают скрытые состояния до и после управления на различных слоях и этапах начального декодирования. Эти признаки помогают нам понять, как эффекты управления распространяются по слоям и токенным позициям, предоставляя ключевую информацию для предсказания управляемости. Затем мы обучаем классификатор на основе градиентного бустинга деревьев решений (GBDT) на этих признаках, чтобы предсказать, приведет ли вмешательство к недостаточному, успешному или чрезмерному управлению, без необходимости полной развертки. Наш предиктор достигает макро-F1 около 0,7 на невидимых концепциях, демонстрируя, что ранние скрытые состояния содержат значительную структурированную информацию о конечной эффективности управления. Мы также используем этот предиктор управляемости в качестве ориентира для поиска силы управления, достигая близкой к оптимальной производительности при незначительной доле затрат на декодирование.
Создание надежных медицинских мультимодальных больших языковых моделей (ММБЯМ) имеет решающее значение для достоверной поддержки клинических решений. Существующие бенчмарки медицинских галлюцинаций в основном сосредоточены на сборе данных, но часто игнорируют то, где в процессе рассуждения возникают галлюцинации. Мы обнаружили, что источники галлюцинаций варьируются в зависимости от примеров: ошибки могут возникать из-за неправильного визуального распознавания, некорректного вспоминания медицинских знаний или ошибочной интеграции рассуждений. Для диагностики галлюцинаций на уровне источника мы представляем ClinHallu — бенчмарк для поэтапной диагностики галлюцинаций в процессе рассуждения медицинских ММБЯМ. ClinHallu содержит 7 031 валидированный экземпляр, каждый из которых дополнен структурированным следом рассуждений, разбитым на этапы: визуальное распознавание, вспоминание знаний и интеграция рассуждений. Мы также используем вмешательства с заменой этапов, чтобы измерить, как исправление конкретных этапов влияет на итоговый ответ. Помимо оценки, мы показываем, что точная настройка с использованием следов рассуждений уменьшает поэтапные галлюцинации. ClinHallu предоставляет тонкозернистую тестовую среду для диагностики и смягчения ошибок рассуждений в медицинских ММБЯМ. Бенчмарк доступен по адресу https://github.com/alibaba-damo-academy/ClinHallu.
Онлайн-групповые чаты представляют собой социальные пространства с локальными нормами общения, которые редко формулируются явно. Способность и готовность агентов на основе больших языковых моделей (LLM) распознавать и адаптироваться к этим нормам остаются в значительной степени неизученными. Мы представляем LoSoNA — бенчмарк для оценки адаптации к локальным социальным нормам в многостороннем чате. Каждый сценарий предоставляет модели-субъекту тщательно подобранный транскрипт группового чата, в котором участники, не являющиеся субъектом, демонстрируют скрытую локальную норму, после чего следует финальная реплика-стимул, принуждающая к ответу, раскрывающему, сделал ли субъект вывод о данной норме. Мы оцениваем восемь передовых моделей и моделей с открытыми весами в четырех условиях промпта, различающихся по степени явности указания модели рассматривать предшествующий разговор как основание для того, как следует отвечать. Наивный промптинг остается ограниченным для большинства моделей; явный промптинг с учетом норм помогает неравномерно: Gemini 3.1 Pro достигает 84,2%, а Claude Fable 5 — 81,6%, тогда как ряд других моделей демонстрируют незначительные улучшения или регресс. LoSoNA вносит вклад в недавние призывы к оценке социальных способностей LLM, проверяя, могут ли модели выводить локальные нормы общения из прецедентов и использовать их в одноходовом ответе в групповом чате.
Агенты искусственного интеллекта все активнее разрабатываются для ускорения научных открытий, однако их практические возможности в реальных исследовательских условиях остаются плохо изученными. Существующие бенчмарки для агентов ИИ редко учитывают сложность, разнородность и длительные рассуждения, необходимые для научной работы, тогда как бенчмарки для научных задач часто сводят исследование к статическим, прямым задачам и предоставляют ограниченную поддержку для интерактивной оценки. Здесь мы представляем SciAgentArena — систематический бенчмарк для оценки агентов ИИ в реальных сценариях научных исследований, основанный на возникающих потребностях в различных областях. SciAgentArena включает примерно 200 задач с пошаговой верификацией и интерактивную, не зависящую от агентов среду для оценки различных агентов ИИ. Используя этот бенчмарк, мы обнаружили, что современные агенты могут эффективно вносить вклад в четко определенные рабочие процессы анализа данных, особенно когда структура задачи и критерии оценки ясны. Однако их производительность остается неравномерной в разных научных контекстах: агенты с трудом генерируют по-настоящему новые идеи, поддерживают самостоятельное исследование и формулируют надежные решения для открытых исследовательских вопросов. Мы также характеризуем общие типы сбоев у агентов и определяем возможности для повышения их надежности, автономии и научного мышления. В совокупности SciAgentArena предоставляет практическую основу для измерения прогресса в области агентов ИИ для науки и для руководства разработкой будущих агентов, способных решать сложные научные задачи. Полные коды, задачи и наборы данных доступны по ссылке: https://sciagentarena.github.io/.
Дистилляция на политике (OPD) недавно стала популярным методом пост-тренировки, поскольку объединяет два желаемых компонента: траектории студента на политике и плотное наблюдение учителя. Однако то, как эта гибридная процедура изменяет параметры модели, остается неясным. На нескольких парах языковых и зрительно-языковых моделей и сценариях использования наш анализ выявил два основных результата. Что касается разреженности, обновления в стиле OPD малы и разрежены по координатам. Они распределены по слоям и обычно с преобладанием FFN. Эта разреженная структура полезна на практике: обучение только обнаруженной подсети дает почти такую же производительность, как полная OPD. Однако оптимизатор SGD, индуцирующий разреженность, уступает AdamW в нашем абляции оптимизаторов, вероятно, потому что плотное наблюдение учителя сохраняет гетерогенные покоординатные масштабы градиентов, где адаптивное масштабирование AdamW остается полезным. Что касается геометрии, обновления численно полноранговые, но спектрально сконцентрированы; они в основном лежат вдали от основных сингулярных подпространств исходных весов и непропорционально приходятся на координаты, где исходные веса близки к нулю. Эти результаты показывают, что плотное наблюдение учителя не превращает OPD в обычное плотное переписывание параметров; вместо этого OPD сохраняет важные геометрические признаки пост-тренировки на политике.
Рассуждение об аффордансах — умозаключение о возможностях взаимодействия с объектом на основе его физических свойств (например, формы и материала) — является фундаментальным для физического понимания человека и становится всё более важным для больших языковых моделей (БЯМ). Однако существующие эталонные тесты аффордансов в значительной степени раскрывают явные идентификаторы объектов в экспериментальной установке, что позволяет моделям полагаться на запомненные соответствия «объект–аффорданс» вместо рассуждений о физических свойствах. Чтобы устранить этот пробел, мы представляем Affordance20Q, новый эталонный тест для рассуждений об аффордансах, сформулированный как игра в «20 вопросов» без раскрытия идентификатора объекта. В каждой игре модель определяет аффорданс скрытого объекта из набора кандидатов, задавая вопросы «да/нет» о его физических свойствах. Affordance20Q включает 1009 игр по 454 объектам и 59 аффордансам, все игры вручную отфильтрованы, уточнены и аннотированы. Мы провели всесторонние эксперименты с 15 современными БЯМ и обнаружили существенный разрыв (~20 пунктов) по сравнению с человеческой производительностью. Анализ информационного выигрыша (IG) на основе KL-дивергенции дополнительно показывает, что модели не задают различающие вопросы по мере развития игры. Для преодоления разрыва мы разработали индукцию правил с привязкой к базам знаний (KARI) — конвейер на основе БЯМ, который генерирует правила аффордансов, обоснованные свидетельствами из баз знаний (БЗ). KARI улучшает показатели открытых БЯМ до 15,2 пункта, однако ограниченный охват БЗ препятствует дальнейшему прогрессу. Мы публикуем весь наш код и данные по адресу https://github.com/1171-jpg/Affordance20Q.git.
Исследования человеческого мышления показали, что люди, как правило, лучше оценивают рассуждения, чем создают их с нуля. Напротив, большие модели рассуждений (LRM) обучаются превосходно порождать длинные цепочки рассуждений для решения сложных задач. Как же LRM справляются с оценкой рассуждений? Мы исследуем этот вопрос на наборе данных VAIR (Valid-Answer-Invalid-Reasoning), содержащем математические задачи и решения с тривиальными ошибками в рассуждениях, но верными ответами; этот набор данных предназначен для того, чтобы изолировать оценку рассуждений от смешивающего фактора их порождения. В отличие от людей, которые, как мы обнаружили, лишь на 6% хуже оценивают такие задачи, чем решают их, мы наблюдаем существенный разрыв между порождением и оценкой у LRM: передовые модели набирают лишь 48% правильных ответов при оценке решений VAIR, несмотря на почти идеальное порождение решений. В чем причина этой загадки? Анализ цепочек мыслей (CoT) показывает признаки предвзятости подтверждения ответа: LRM часто сначала порождают ответ, а затем проверяют его правильность вместо тщательной верификации каждого шага, фабрикуя рационализации даже при обнаружении аномальных рассуждений. Линейные зонды подтверждают это, показывая, что, хотя активации LRM кодируют некоторые представления валидных рассуждений, они неспособны надежно представлять решения VAIR как невалидные. Каузальное патчинг представлений финального ответа приводит к переключению вердиктов и активаций модели, демонстрируя, что валидность ответа ответственна за предвзятость подтверждения моделей. Эти результаты указывают на фундаментальное ограничение доминирующих подходов к обучению рассуждениям, которые стимулируют LRM порождать и подтверждать рассуждения, ведущие к правильным ответам, но не обеспечивают надежную оценку лежащих в основе рассуждений.
Мультимодальные большие языковые модели могут писать код для создания сложных программ, а также использовать программы для 3D-моделирования, что открывает новое направление в 3D-генерации, основанное на их априорных знаниях, знаниях о мире и рассуждениях. Однако существующие бенчмарки редко оценивают 3D-моделирование с помощью кода. Такое моделирование требует большего, чем просто исполняемый код: на основе текстового или визуального описания модель должна сгенерировать параметрическую 3D-программу, которая является геометрически точной, семантически согласованной и соответствующей сборке. Мы представляем P3D-Bench — бенчмарк для параметрической 3D-генерации. В отличие от 3D-сетки, параметрическая 3D-программа раскрывает явные размеры, операции построения и отношения между частями, показывая, восстанавливает ли модель структуру дизайна, а не только его внешний вид. В рамках единого протокола P3D-Bench охватывает три семейства задач (Text-to-3D, Image-to-3D и Assembly-3D) и оценивает каждый результат по критериям исполняемости, геометрической точности, топологии, текстово-зависимых ограничений, многовидовой семантической согласованности и структуры на уровне частей. Мы оцениваем передовые MLLM и текстовые LLM на 400 текстовых примерах, 400 примерах с изображениями и 203 аннотированных сборках, используя специализированные модели в качестве референсных точек. Наше обширное оценивание дает три результата. Во-первых, сборки являются наиболее сложным сценарием, где модели все еще не могут собрать несколько частей в согласованную структуру. Во-вторых, модели часто могут восстановить глобальную форму и семантическую идентичность целевого объекта, но не могут воспроизвести точную параметрическую геометрию, заданную входными данными. В-третьих, моделирование на уровне частей остается слабым в сборках, где модели не восстанавливают ни геометрию каждой части, ни правильное количество частей. Эти результаты позиционируют P3D-Bench как бенчмарк для оценки точной параметрической геометрии и структуры на уровне частей в параметрической 3D-генерации.
Модели «зрение-язык-действие» (VLA), объединяющие предварительно обученные модели «зрение-язык» (VLM) с экспертами непрерывных действий, демонстрируют высокую производительность в манипуляционных задачах, однако их способность к обобщению на речевые инструкции, выходящие за пределы распределения (OOD), остаётся низкой. Известной проблемой является структурный дисбаланс в данных VLA, где языковая составляющая значительно менее разнообразна по сравнению с визуальной и моторной, что приводит к склонности политик к использованию визуальных сокращений. Хотя методы дискретных действий смягчают этот дисбаланс за счёт совместного обучения зрительно-языковых моделей, эксперты непрерывных действий лишены такой защиты: они инициализируются случайным образом и обучаются исключительно на несбалансированных данных, порождая зашумлённые градиенты, которые нарушают работу VLM и не позволяют в полной мере использовать её языковые способности. Мы решаем эту проблему с байесовской точки зрения, разлагая политику на независимую от языка априорную модель «зрение-действие» (VA) и обусловленную языком апостериорную модель VLA, и предлагаем APT — двухэтапный метод обучения, акцентирующий предварительное обучение эксперта действий (Action expert PreTraining). На этапе 1 эксперт действий предварительно обучается как априорная модель VA на парах «зрение-действие» с замороженной VLM, минуя языковой дисбаланс. На этапе 2 языковые токены внедряются через управляемый механизм слияния, который интегрирует признаки VLM, сохраняя при этом изученный визомоторный априор. APT применим к основным архитектурам VLA, включая стили π и GR00T. Комплексные эксперименты подтверждают, что APT обеспечивает стабильное улучшение результатов на невидимых инструкциях и композиционных задачах. Страница проекта: https://xukechun.github.io/papers/APT/
Методы преобразования изображений в 3D часто предполагают компромисс между точностью и полнотой: оценщики глубины привязаны к входным пикселям, но останавливаются на видимой поверхности, в то время как модели «изображение-в-3D» генерируют полные формы, которые часто не согласуются с входным изображением. Мы представляем World Tracing — генеративное геометрическое представление, согласованное с пикселями, которое предсказывает 3D-точки, выровненные по наблюдаемым пикселям, одновременно дополняя геометрию за пределами видимой поверхности. Для каждого входного пикселя World Tracing предсказывает упорядоченный стек 3D-точек в пространстве камеры, где первый слой представляет видимую поверхность, а последующие слои представляют пересечения от переднего к заднему плану с окклюдированными поверхностями. Мы реализуем это представление с помощью диффузионного трансформера World Tracing, WT-DiT, который рассматривает несколько геометрических слоев как отдельные токены шумоподавления, связанные через факторизованное и глобальное внимание. WT-DiT обучается с помощью согласования потоков в пиксельном пространстве и смешанного графика шума, который уравновешивает реконструкцию видимой поверхности и генерацию окклюдированной геометрии. World Tracing демонстрирует высокую производительность при реконструкции видимой поверхности и генерации полной геометрии на эталонных тестах объектов, сцен и динамических сценариев, превосходя как предсказатели глубины, так и генераторы «изображение-в-3D». Он также сохраняет соответствие 2D-3D, обеспечивая текстовое редактирование 3D-сцен, синтез видео с новых ракурсов на основе геометрии и интеграцию без обучения с генераторами текстурированных сеток.
Мультимодальные фундаментальные модели (MFMs) достигли значительного прогресса, однако остаются неустойчивыми в пространственном рассуждении о физическом мире. Ключевое узкое место заключается в их неспособности преобразовывать локальные эгоцентрические наблюдения в глобальное аллоцентрическое пространственное представление. Для решения этой проблемы мы предлагаем AlloSpatial — агентную структуру для аллоцентрической пространственной когниции в фундаментальных моделях. AlloSpatial вводит World2Mind — подключаемую когнитивную картографическую песочницу, которая преобразует эгоцентрические наблюдения в структурированные аллоцентрические априоры, включая аллоцентрические пространственные деревья и карты маршрутов, поддерживающие запросы топологии объектов, геометрических отношений, проходимости и траекторий. Для надежного использования этих априоров в условиях зашумленной реконструкции и неоднозначных визуальных данных AlloSpatial вводит обвязку пространственного рассуждения для оценки использования инструментов, сбора подсказок с декомпозицией по модальностям и арбитража геометрии и семантики. Мы далее интернализируем этот процесс в Qwen3-VL с помощью обучения с подкреплением с холодного старта и вознаграждения на уровне траекторий, управляемого обвязкой. Эксперименты на VSI-Bench и MindCube показывают, что AlloSpatial улучшает проприетарные модели на 5%-18% в условиях без обучения, в то время как одни AST обеспечивают сильное пространственное рассуждение даже при удалении визуальных входных данных. Обученные агенты AlloSpatial дополнительно превосходят более крупные модели общего назначения и конкурентоспособные пространственные базовые линии, что указывает на то, что структурированные аллоцентрические представления, активное использование инструментов и верифицируемое рассуждение предлагают многообещающий путь к пространственно способным фундаментальным моделям.
Мы исследуем задачу идентификации наилучшего действия с фиксированной достоверностью (BAI) в стохастических минимаксных деревьях. Эта проблема приобретает все большую актуальность в современном планировании ИИ, где глубокий минимаксный поиск и поиск по дереву Монте-Карло (MCTS) с длинными роллаутами на основе языковых моделей сталкиваются с фундаментальным компромиссом: эвристические оценки дешевы, но смещены, в то время как точные роллауты надежны, но непомерно дороги. Мы предлагаем 2FFS — алгоритм поиска по дереву с двумя уровнями точности, который переносит идеи многоуровневых плоских бандитов в деревья. Алгоритм сочетает минимаксную быструю экспансию со стохастической выборкой в стиле MCTS, адаптивно решая, когда использовать дешевые смещенные оценки, а когда запускать дорогие точные оценки для локальной верификации. Мы доказываем корректность с фиксированной достоверностью, устанавливаем финитную остановку для точной идентификации и приводим полиномиальную верхнюю границу стоимости по глубине для деревьев произвольной глубины. В численных экспериментах на стохастических деревьях 2FFS требует существенно меньше выборок и вычислительных операций по сравнению с существующим базовым методом BAI-MCTS.
Детекторы галлюцинаций на уровне токенов оцениваются как классификаторы по AUC по всем токенам, однако стриминговый монитор оценивается по времени реакции: количеству токенов, проходящих между началом галлюцинации и сигналом тревоги. Мы формулируем обнаружение начала галлюцинации как задачу быстрейшего обнаружения изменений. Марковская модель первого порядка скрытого состояния «достоверный/галлюцинирующий», подтверждённая на наборе данных RAGTruth, помещает задачу в рамках классической теории точек изменения и даёт нижнюю границу Лордена на задержку обнаружения: около 1,3 токена при частоте ложных тревог 0,01. Затем мы показываем, что каузальный рекуррентный маркер действует как CUSUM с обученным приращением; при согласованной частоте ложных тревог он обнаруживает за 11–13 токенов, тогда как линейный поточечный базовый метод — за 31 токен, а контролируемое разложение приписывает большую часть этого преимущества лучшей оценке на токен, а не временному накоплению. Теорема оптимальности информационной скорости типа Донскера–Варадана объясняет оставшийся разрыв на порядок величины: обученная оценка реализует лишь 1/4,5 дивергенции, которую несут признаки; этот дефицит не может быть устранён повторной калибровкой, а остаток является эффектом конечного горизонта. Метрики классификации скрывают эту структуру задержки; последовательный анализ делает её измеримой.
Мы представляем бенчмарк для оценки моделей и агентов ИИ на задачах формальной верификации реального программного обеспечения. Сначала мы извлекаем 11 039 тестов на основе свойств (PBT) из реальных репозиториев Python, затем автоматически переводим 2 772 из них (25%) в 9 415 спецификаций Lean 4 с заглушками sorry (около 3 формализаций на PBT; мы сохраняем несколько попыток, когда ни одна не доминирует по метрикам качества). Перевод PBT в спецификации Lean является сложной задачей: он требует моделирования семантики Python в Lean, вывода логического свойства, закодированного в императивном PBT, и преодоления неотъемлемых трудностей программирования с зависимыми типами в редко используемом языке. Мы описываем конвейер LLM с тремя агентами для транспиляции PBT в спецификации Lean, оцениваем метрики покрытия и качества, а также предоставляем базовые показатели для генерации доказательств с использованием нескольких автоматических и основанных на моделях подходов. Весь код (скрапер и агенты) и данные (PBT и спецификации Lean) являются открытыми. Наш бенчмарк направлен на стимулирование прогресса в малоизученной проблеме формальной верификации реального программного обеспечения с помощью ИИ, что вызывает растущий интерес по мере того, как ИИ производит всё больше кода в мире.
Эгоцентрическое видео человека предлагает масштабируемую альтернативу данным роботов для предварительного обучения, однако модели, предварительно обученные на таком видео, последовательно уступают моделям, предварительно обученным на данных роботов. Мы объясняем этот разрыв отсутствием сигнала – активного перцептивного поведения в эгоцентрических видео, где люди непрерывно изменяют положение точки обзора во время манипуляции, вызывая движение камеры, которое стандартные конвейеры рассматривают как шум. Для решения этой проблемы мы представляем ActiveMimic – фреймворк предварительного обучения, который восстанавливает синхронизированные траектории камеры и запястья по данным с одной носимой на теле RGB-камеры, моделирует движение камеры как действие точки обзора и совместно обучает активному восприятию и манипуляции на основе эгоцентрического видео человека в естественных условиях перед адаптацией к целевому роботу. Эмпирически, эксперименты в реальном мире на задачах с различными требованиями к активному восприятию показывают, что ActiveMimic последовательно превосходит базовые модели, предварительно обученные на видео человека, и соответствует современным моделям, предварительно обученным на данных роботов. Дальнейший анализ предоставляет доказательства того, что способность к активному восприятию возникает в результате предварительного обучения на эгоцентрическом видео человека, а не в результате тонкой настройки под конкретного робота, подтверждая, что активное восприятие является ключом к раскрытию потенциала эгоцентрического видео человека для предварительного обучения роботов.
Интерактивное вождение выявляет режим отказа, который легко пропустить в стеках автономного вождения, учитывающих правила: жесткий запас по правилам может быть отрицательным для эго-кандидата, даже если небольшое законное приспособление со стороны неприоритетного агента восстановило бы выполнимость. Существующие регламенты, защитные механизмы и фильтры достижимости эффективно блокируют небезопасные действия, в то время как планировщики на основе прогнозирования моделируют вероятные реакции. Ни один из них не возвращает объект доказательства времени выполнения, который указывает, какое ограниченное многопользовательское изменение исправляет маневр, кому принадлежит это изменение, выполнимо ли оно с точки зрения права проезда и какой запасной вариант остается у эго-агента, если запрос не будет выполнен. Мы формулируем этот отсутствующий объект как *сертификацию интерактивного исправления* и представляем *CARVE* — свободный от прогнозирования сертификационный слой на конечной решетке тактических операторов, принадлежащих эго-агенту и агенту. Запросы, принадлежащие агенту, допустимы только внутри \(B_j(s) = β(π_j)α_j^{\max}(s)\), оболочки сотрудничества, которая отделяет кинематическую достижимость от нормативного приоритета. Полученный сертификат фиксирует связывающее правило, категорию исправления, набор исправлений, распределение затрат с учетом ответственности и запасной вариант. На 589 повторных эпизодах INTERACTION, привязанных к геометрии Lanelet2, CARVE-Greedy принимает 98,64% изначально заблокированных маневров и восстанавливает 370 из 378 ложно-положительных блокировок, разрешенных человеком, при этом сохраняя в 589 из 589 случаях уважение права проезда, нулевое количество ложных срабатываний приоритетного агента и 400 из 400 блокировок в негативных стрессовых ситуациях. Мы доказываем обоснованность сертификата, структурное уважение права проезда, точную минимальность конечной решетки, резервирование запасного варианта и условия согласованности вины. CARVE не предсказывает и не требует соблюдения правил другим водителем; он сертифицирует, является ли предлагаемое взаимодействие ограниченным, приписываемым и нормативно допустимым при объявленных предположениях.
Крупные модели рассуждений обычно следуют парадигме «сначала чтение, затем размышление»: они наблюдают полный входной сигнал, рассуждают над статическим контекстом и затем выдают ответ. Однако многие реальные сценарии по своей природе являются динамическими, например, аудио- и видеопотоки, где информация поступает в виде непрерывного потока, и модели должны рассуждать, обновлять свои знания и отвечать в условиях частичных наблюдений. Недавние методы потокового рассуждения позволяют моделям размышлять во время чтения, но в значительной степени полагаются на контролируемую имитацию заранее построенных траекторий, что ограничивает их гибкость. В данной статье мы предлагаем AdaSR — адаптивную фреймворку для потокового рассуждения, которая позволяет моделям рассуждать во время поступления входного потока и выполнять окончательное обдумывание после завершения потока, обучаясь тому, когда думать и какой объём вычислений выделять на различных этапах. Для оптимизации этого иерархического процесса рассуждения мы вводим Иерархическую относительную оптимизацию политики (Hierarchical Relative Policy Optimization, HRPO), которая разбивает оптимизацию политики на фазы потокового и глубокого рассуждения, обеспечивая более детальное назначение преимуществ вместо равномерного распределения единого преимущества на уровне последовательности по всем токенам. HRPO объединяет вознаграждения за формат, точность и адаптивное мышление для соблюдения корректных протоколов рассуждения, сохранения конечной производительности по задаче и стимулирования распределения вычислений с учётом задержки. Эксперименты показывают, что AdaSR достигает лучшего баланса между точностью рассуждений, вычислительной эффективностью и задержкой потока по сравнению с базовым методом контролируемой донастройки. Мы публикуем наш код по адресу: https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.
Неструктурированная обрезка порождает разреженные тензоры весов, но стандартная реализация сохраняет размерности тензоров неизменными, поэтому развёрнутая модель не становится меньше, чем до обрезки. Мы предлагаем точную структурную перезапись, называемую минимизацией, которая преобразует маскированную сеть в более компактную плотную сеть, сохраняющую ту же прямую функцию с точностью до округления с плавающей точкой. Цикл «сжатие-освобождение» итеративно повторяет процедуры обрезки и минимизации с промежуточным шагом освобождения, который включает в себя повторное включение точных нулевых позиций внутри уплотнённых тензоров в виде малого калиброванного шума, превращая в противном случае бесполезную ёмкость обратно в обучаемые параметры. Последовательные циклы используют эту ёмкость для обнаружения структурной избыточности, недоступной при однократном проходе. Мы также вводим CompensatedLayerNorm — функционально сохраняющую замену для LayerNorm, которая расширяет минимизацию на сокращение каналов в остаточных потоках с LayerNorm. Сжатие-освобождение уменьшает развёртываемую сеть в 39 раз по сравнению с необрезанной моделью для полносвязной сети и в 14,8 раза для современной CNN (ConvNeXt-Tiny) при сравнимой точности. Кроме того, мы доказываем, что перезапись может быть расширена на архитектуры трансформеров.
Большие и демографически сбалансированные наборы данных необходимы для надежных биомаркеров нейровизуализации. Синтез полномасштабных 3D МРТ-изображений головного мозга может поддерживать аугментацию данных в этом контексте, но существующие подходы либо требуют непомерных вычислительных затрат при объемном масштабировании, либо полагаются на сжатие с потерями в латентном пространстве, что может ухудшить анатомические детали. В результате практическая генеративная аугментация 3D-данных часто требует специализированной вычислительной инфраструктуры. Мы предлагаем WaveDiT — фреймворк условного согласования потоков, работающий в пространстве коэффициентов трехмерного дискретного вейвлет-преобразования Хаара. Модель сочетает факторизованное пространственно-глубинное внимание с гетероскедастическим моделированием неопределенности по полосам, основанным на статистиках вейвлетов высших порядков. Предсказанная лог-дисперсия интегрируется непосредственно как в целевую функцию потока, так и в путь обусловливания, обеспечивая адаптивную точность, согласующуюся с тяжелохвостой и зависящей от входных данных структурой дисперсии анатомических деталей. Такая формулировка поддерживает полномасштабный 3D-синтез при практических ограничениях по памяти и времени на одном современном GPU. Оценка на многоплощадочной когорте демонстрирует улучшенное выравнивание между сгенерированными и реальными распределениями МРТ, а также улучшенное последующее предсказание возраста мозга и региональное анатомическое согласие по сравнению с базовыми подходами на основе диффузии, латентных представлений и вейвлетов. Код доступен по адресу https://github.com/sisinflab/WaveDiT.
С помощью PRECISE мы расширили метод Prediction-Powered Inference (вывод с поддержкой предсказаний) для получения скорректированных по смещению оценок метрик ранжирования путем объединения небольшого набора с разметкой от людей и большого набора, оценённого большой языковой моделью (LLM). Метод PPI является доказуемо несмещённым независимо от профиля ошибок LLM-судьи. Мы делаем его применимым к иерархическим метрикам, таким как Precision@K, где аннотации присваиваются на уровне документов, а сама метрика вычисляется на уровне запросов, за счёт сокращения вычислений в пространстве выходных данных с O(2^|C|) до O(2^K). На эталонном наборе ESCI дополнение 30 человеческих аннотаций оценками Claude 3 Sonnet снижает стандартную ошибку оценок Precision@4 с 4,45 до 3,50 (относительное снижение на 21%). В продуктовой системе наша схема правильно определила лучший из трёх вариантов системы на основе 100 меток от людей и 2 часов аннотирования экспертами предметной области; A/B-тестирование подтвердило это ранжирование с приростом ежедневных продаж на 407 базисных пунктов.