HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

46 papers found

OmniDirector: универсальное мультиснимковое клонирование камеры без перекрестно-парных данных
OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

Jun 11

ByJiwen Liu, Shujuan Li, Zhixue Fang, Xiaohan Li, Yan Zhou, Zijie Meng, Zhimin Zhang, Yawen Luo, Guoxin Zhang, Yu-Shen Liu, Pengfei Wan

Клонирование движения камеры из эталонных видео является важной задачей в генерации видео, поскольку видео обеспечивают интуитивное и точное управление. Существующие методы либо напрямую используют параметрические представления, которые не справляются с многокадровой генерацией, либо синтезируют кросс-парные данные, страдающие от нехватки данных, что приводит к низкой производительности при клонировании сложных движений камеры. Для решения этих проблем мы вводим общее представление движения камеры, кодирующее камеры как сеточные видео движения. Эта сетка камеры визуально представляет параметры камеры и поддерживает интеграцию разнообразных траекторий для многокадровой генерации видео. Основываясь на этом, мы предлагаем OmniDirector — унифицированную структуру, обученную на миллионах пар «сетка камеры — видео», которая координирует персонажи, действия и камеры для обеспечения управления на уровне режиссера для мультимодальных диффузионных трансформеров. Кроме того, мы разрабатываем новый иерархический агент расширения подсказок, который гармонично интегрирует различные управляющие сигналы путем систематического описания движения камеры и визуального содержимого на основе понимания взаимосвязей сигналов. Обширные эксперименты демонстрируют превосходную производительность и выдающуюся управляемость нашей структуры. Страница проекта: https://ymlinfeng.github.io/OmniDirector.github.io/

APPO: Агентная процедурная оптимизация политики
APPO: Agentic Procedural Policy Optimization

Jun 10

ByXucong Wang, Ziyu Ma, Yong Wang, Yuxiang Ji, Shidong Yang, Guanhua Chen, Pengkun Wang, Xiangxiang Chu

Последние достижения в области агентного обучения с подкреплением (Reinforcement Learning, RL) существенно улучшили многораундовые способности больших языковых моделей-агентов к использованию инструментов. Однако большинство существующих методов распределяет кредит на основе грубых эвристических единиц, таких как границы вызовов инструментов или фиксированные рабочие процессы, что затрудняет идентификацию того, какие промежуточные решения влияют на итоговые результаты. В данной работе мы исследуем агентное RL с двух точек зрения: где выполнять ветвление и как назначать кредит после ветвления. Наш пилотный анализ показывает, что влиятельные точки принятия решений широко распределены по всей сгенерированной последовательности, а не сконцентрированы на вызовах инструментов, при этом энтропия токенов сама по себе не отражает их влияние на конечные результаты. Руководствуясь этими наблюдениями, мы предлагаем Agentic Procedural Policy Optimization (APPO), который переносит ветвление и назначение кредита с грубых единиц взаимодействия на мелкозернистые точки принятия решений в последовательности. APPO выбирает места ветвления с помощью показателя ветвления (Branching Score), который объединяет неопределенность токенов с обусловленными политикой приростами правдоподобия последующих продолжений, что обеспечивает более целенаправленное исследование, отфильтровывая ложные позиции с высокой энтропией. Кроме того, вводится масштабирование преимуществ на уровне процедуры (procedure-level advantage scaling) для более эффективного распределения кредита между разветвленными траекториями. Эксперименты на 13 эталонных тестах показывают, что APPO последовательно улучшает сильные агентные RL-базисы почти на 4 пункта, сохраняя при этом эффективность вызовов инструментов и интерпретируемость поведения.

Память реконструируется, а не извлекается: Память на основе графов для LLM-агентов
Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents

Jun 4

ByShuo Ji, Yibo Li, Bryan Hooi

Несмотря на недавний прогресс, агенты на основе больших языковых моделей (LLM) по-прежнему испытывают трудности с рассуждением на основе длинных историй взаимодействия. Хотя современные агенты с расширенной памятью полагаются на статическую парадигму «извлеки-затем-рассуждай», такая жесткая конвейерная конструкция не позволяет им динамически адаптировать доступ к памяти в зависимости от промежуточных свидетельств, обнаруживаемых в ходе вывода. Чтобы устранить этот пробел, мы предлагаем MRAgent — архитектуру, которая объединяет ассоциативный граф памяти с механизмом активной реконструкции. Мы представляем память в виде графа «Сигнал-Тег-Содержание», где ассоциативные теги служат семантическими мостами, соединяющими мелкозернистые сигналы с содержимым памяти. Работая на этой структуре, наш механизм активной реконструкции непосредственно интегрирует рассуждения LLM в процесс доступа к памяти, позволяя агенту итеративно исследовать и обрезать пути извлечения на основе накопленных свидетельств. Это гарантирует, что извлечение памяти динамически адаптируется к контексту рассуждения, избегая при этом комбинаторного взрыва, вызванного неограниченным расширением. Эксперименты на эталоне LoCoMo и эталоне LongMemEval демонстрируют значительные улучшения по сравнению с сильными базовыми моделями (до 23%), а также существенное снижение затрат токенов и времени выполнения, что подчеркивает эффективность активной и ассоциативной реконструкции для долгосрочного рассуждения с памятью.

От чат-бота к цифровому коллеге: смена парадигмы в сторону постоянно действующего автономного ИИ
From Chatbot to Digital Colleague: The Paradigm Shift Toward Persistent Autonomous AI

Jun 12

ByYongheng Zhang, Ziang Liu, Jiaxuan Zhu, Shuai Wang, Xiangqi Chen, Haojing Huang, Jiayi Kuang, Siyu Chen, Ao Shen, Hao Wu, Qiufeng Wang, Qian-Wen Zhang, Junnan Dong, Wenhao Jiang, Ying Shen, Hai-Tao Zheng, Yinghui Li, Di Yin, Xing Sun, Philip S. Yu

Крупные языковые модели (LLM) претерпевают фундаментальную трансформацию от генераторов диалоговых ответов к интегрированным системам ИИ, способным к рассуждению, действию, запоминанию и самоусовершенствованию. Мы концептуализируем этот переход как сдвиг от чат-бота к цифровому коллеге: от диалоговых ответов к устойчивой работе. Мы организуем этот переход по двум тесно связанным измерениям. Во-первых, на уровне когнитивного ядра LLM продвигаются от систем «быстрого мышления» эпохи чат-ботов, основанных на предсказании следующего токена, к «думающим» LLM, использующим вычисления во время вывода, цепочки рассуждений (Chain-of-Thought), рефлексию, процесс-супервизию и обучение с подкреплением для обеспечения более обдуманного и надежного познания. Во-вторых, на уровне выполнения задач с инструментальной поддержкой LLM переходят от агентов, вызывающих инструменты ad hoc, к рабочим станциям типа OpenClaw, оснащенным постоянными рабочими пространствами, навыками, циклами проверки и управления. Парадигма «Рабочее пространство + Навык» превращает эпизодическое использование инструментов в работу коллеги благодаря сохранению состояния, повторно используемым процедурам, завершению задач и повторному использованию опыта. Мы анализируем сдвиги в построении данных от пар «инструкция-ответ» к траекториям «Состояние-Действие-Наблюдение», а также в оценке — от статических бенчмарков к изолированным, аудируемым, саморазвивающимся экосистемам ИИ.

Orchestra-o1: Омнимодальная оркестрация агентов
Orchestra-o1: Omnimodal Agent Orchestration

Jun 10

ByFan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Hao Wu, Jinyang Wu, Donghao Zhou, Zhihong Zhu, Zheng Lian, Xin Wang, Pheng-Ann Heng

Недавний успех роевых агентов изменил парадигму агентов на основе больших языковых моделей (LLM) от однопоточных рабочих процессов к многогагентным системам, подчеркивая важность оркестрации агентов для декомпозиции задач и сотрудничества. Однако существующие фреймворки оркестрации ограничены узким набором модальностей и с трудом обобщаются на более сложные сценарии, где сосуществуют и взаимодействуют разнородные модальности. Это ограничение становится особенно заметным в омнимодальных сценариях, где задачи требуют единого понимания и координации разнообразных входных данных, таких как текст, изображение, аудио и видео. В данной работе мы предлагаем Orchestra-o1 — омнимодальный фреймворк оркестрации агентов, предназначенный для поддержки эффективного сотрудничества агентов в рамках нескольких модальностей. Orchestra-o1 вводит унифицированный механизм оркестрации, обеспечивающий декомпозицию задач с учетом модальностей, онлайн-специализацию подагентов и параллельное выполнение подзадач. Такая масштабируемая архитектура позволяет агентным системам эффективно решать сложные реальные задачи, включающие разнородные источники информации, превосходя второй лучший подход на 10,3% точности в бенчмарке OmniGAIA. Кроме того, мы представляем групповую оптимизацию политики, согласованную с решениями (DA-GRPO) — эффективный метод агентного обучения с подкреплением для обучения Orchestra-o1-8B, который также достигает передовых результатов по сравнению со всеми существующими открытыми омнимодальными агентами.

ХарнессX: Компонуемая, адаптивная и эволюционируемая фабрика обвязки агентов
HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

Jun 12

ByTingyang Chen, Shuo Lu, Kang Zhao, Weicheng Meng, Hanlin Teng, Tianhao Li, Chao Li, Xule Liu, Jian Liang, Zhizhong Zhang, Yuan Xie, Heng Qu, Kun Shao, Jian Luan

Производительность ИИ-агентов критически зависит от исполнительной обвязки (runtime harness), включающей промпты, инструменты, память и поток управления, которые опосредуют то, как модель наблюдает, рассуждает и действует. Однако сегодняшние обвязки в значительной степени остаются создаваемыми вручную и статичными: каждая новая модель или задача по-прежнему требует индивидуальной надстройки, а богатые трассы, порождаемые в процессе выполнения, редко перерабатываются в систематические улучшения. Мы представляем HarnessX — фабрику для компоновки адаптивных и развивающихся агентских обвязок. HarnessX собирает типизированные примитивы обвязки посредством алгебры подстановок, адаптирует их через AEGIS — многоагентный эволюционный движок, управляемый трассами и основанный на операциональном зеркале между символьной адаптацией и обучением с подкреплением, — и замыкает петлю обвязка-модель, преобразуя траектории как в обновления обвязки, так и в сигнал обучения модели. На пяти бенчмарках (ALFWorld, GAIA, WebShop, tau³-Bench и SWE-bench Verified) HarnessX достигает среднего прироста +14,5% (до +44,0%), причем наибольший прирост наблюдается там, где базовые показатели наименьшие. Эти результаты показывают, что прогресс агентов не обязательно достигается только за счет масштабирования моделей: компоновка и эволюция интерфейсов выполнения на основе обратной связи от исполнения является действенным и взаимодополняющим рычагом. Полный код будет опубликован в открытом доступе в одном из будущих релизов.

Переосмысление RAG в длинных видео: что извлекать и как использовать?
Rethinking RAG in Long Videos: What to Retrieve and How to Use It?

Jun 11

ByYuho Lee, Jisu Shin, Nicole Hee-Yeon Kim, Jihwan Bang, Juntae Lee, Kyuwoong Hwang, Fatih Porikli, Hwanjun Song

Генерация с дополнением извлечением выходит за рамки текста и переходит к длинному эгоцентрическому видео, где системы должны выбирать релевантные запросу фрагменты в различных модальностях и временных разрешениях. Однако прогресс в VideoRAG ограничен двумя пробелами: существующие бенчмарки позволяют отвечать на запросы без видео, скрывая ошибки извлечения, а предыдущие методы применяют единую конфигурацию модальности-разрешения для каждого запроса, игнорируя изменчивость на уровне фрагментов. Мы устраняем оба пробела, представляя V-RAGBench — бенчмарк троек «запрос, фрагмент свидетельства, ответ», обеспечивающий достоверную раздельную оценку извлечения и генерации, и CARVE — простой метод, запускающий параллельные извлекатели в различных конфигурациях и использующий адаптивное к фрагментам переранжирование для определения выигрышной конфигурации для каждого фрагмента. Затем каждый фрагмент поступает в генератор в своей выигрышной конфигурации, выбранной во время извлечения, что дает перемежающуюся форму свидетельства, где решение на уровне фрагментов распространяется на оба этапа. CARVE превосходит восемь недавних базовых методов VideoRAG, причем фрагменты, подаваемые в генератор, чередуют несколько конфигураций, а не используют единую — поведение, недостижимое для методов на уровне запросов.

OmniVideo-100K: Набор данных для аудиовизуального рассуждения посредством структурированных сценариев и цепочек свидетельств
OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

Jun 12

ByXinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan

Современные автоматизированные конвейеры для аудиовизуального вопросно-ответного взаимодействия (QA) обычно следуют парадигме «видео-субтитры-QA». Однако такие методы, как правило, сегментируют видео на короткие фрагменты и генерируют отдельные описания для аудиальной и визуальной модальностей. Эта декомпозированная обработка разрывает естественные связи между звуками и их визуальными источниками, а независимая обработка фрагментов часто приводит к несогласованным описаниям одного и того же объекта в разных сегментах. Кроме того, объединение понимания длинных текстов и синтеза QA в один этап часто ограничивает модели локальными событиями, порождая вопросы, лишенные долгосрочных временных связей и глубокого кросс-модального рассуждения. Для решения этих проблем мы предлагаем автоматизированный механизм работы с данными, включающий два компонента: (1) **Субъектно-ориентированное видеосценарное описание** преобразует видео в структурированные сценарии, содержащие резюме, списки основных субъектов и посегментные аудиовизуальные описания. Список субъектов служит глобальной априорной информацией для обеспечения референтной согласованности между сегментами и восстановления аудиовизуальных связей. (2) **Генерация QA на основе подсказок** побуждает модели сначала извлекать из сценария кросс-сегментные и мультимодальные подсказки, а затем формировать пары вопрос-ответ на основе этих высокоценных подсказок. Используя этот конвейер, мы создаем набор данных для инструктивного дообучения OmniVideo-100K и тестовый набор с верификацией человеком OmniVideo-Test. Дообучение VITA-1.5, Qwen2.5-Omni-7B и Qwen3-Omni-30B на OmniVideo-100K дает прирост производительности до 20,59% на OmniVideo-Test, демонстрируя сильную обобщающую способность (улучшения до 12,64%) на известных эталонных тестах, таких как Daily-Omni и JointAVBench.

От общего искусственного интеллекта к искусственному суперинтеллекту
From AGI to ASI

Jun 10

ByTim Genewein, Matija Franklin, Alexander Lerchner, Laurent Orseau, Samuel Albanie, Adam Bales, Cole Wyeth, Stephanie Chan, Iason Gabriel, Joel Z. Leibo, Allan Dafoe, Marcus Hutter, Thore Graepel, Shane Legg

За последнее десятилетие создание общего искусственного интеллекта человеческого уровня перешло из разряда далеких от реальности спекуляций в конкретную цель на ближайшее десятилетие для многих крупнейших организаций в области ИИ. Достижение этой цели будет иметь глубокие и далеко идущие последствия для человеческого общества, что порождает множество сложных вопросов на предстоящее десятилетие. Данный доклад исследует, как сам ИИ может продолжать развиваться в мире после появления AGI в рамках континуума машинного интеллекта. Конечная точка этого континуума — универсальный ИИ — теоретически хорошо изучена, что обеспечивает некоторую формальную основу для основного фокуса доклада: перехода от AGI человеческого уровня к искусственному общему сверхинтеллекту, который интуитивно можно понимать как систему, более интеллектуальную и когнитивно способную, чем крупные организации людей. После характеристики ASI в докладе обсуждаются четыре потенциальных пути от AGI к ASI: масштабирование AGI, смена парадигм в ИИ, рекурсивное улучшение и возникновение ASI из крупномасштабных многоагентных коллективов. Затем рассматриваются возможные трения и узкие места на этих путях. Определение того, будет ли влияние этих трений незначительным или существенным, порождает ряд конкретных открытых исследовательских вопросов. Из-за большой неопределенности в прогнозировании прогресса ASI нельзя исключать, что развитие ИИ может продолжить ускоряться в ближайшие годы. Это может означать, что представление об едином трансформационном скачкообразном изменении, вызванном внедрением AGI человеческого уровня в наше общество, может быть неточным. Более уместным может оказаться перспектива серии трансформационных общественных изменений, вызванных прогрессом и прорывами, обеспечиваемыми ИИ во многих областях науки и техники. Подготовка к такой перспективе требует масштабных междисциплинарных усилий глобального охвата и интереса.

Меньшие модели являются естественными исследователями для разнообразия на уровне политики в GRPO.
Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

Jun 2

ByYiming Ren, Yiran Xu, Zicheng Lin, Chufan Shi, Yukang Chen, Dingdong Wang, Tianhe Wu, Junjie Wang, Yujiu Yang, Yu Qiao, Ruihang Chu

Мы идентифицируем новое измерение для повышения разнообразия генераций (rollout diversity) в групповой относительной оптимизации политики (GRPO) для больших языковых моделей. Хотя GRPO опирается на разнообразные генерации, преобладающие стратегии в основном увеличивают разнообразие путем внесения большей случайности на уровне токенов, что может приводить к пошаговому шуму и несвязным траекториям. Мы обнаруживаем, что меньшие модели в рамках одного семейства моделей изначально демонстрируют более высокое разнообразие на уровне политики, на что указывает их превосходный показатель pass@k по сравнению с более крупными аналогами при увеличении числа выборок. В отличие от шума на уровне токенов, это разнообразие является темпорально коррелированным, сохраняет логическую согласованность и обеспечивает структурированные исследовательские сигналы для оценки градиента. Таким образом, мы предлагаем S2L-PO (Small-to-Large Policy Optimization) — фреймворк, который использует фиксированные малые модели в качестве естественных исследователей для обучения более крупных моделей. Для баланса между исследованием и эксплуатацией мы разрабатываем стратегию прогрессивного отжига, которая переходит от офлайн-генераций малой модели к собственным выборкам крупного обучаемого. Этот сдвиг элегантно избегает падения производительности в середине обучения, вызванного ограниченными возможностями малой модели, обеспечивая более быструю сходимость и открывая более высокий потолок производительности. S2L-PO улучшает точность на различных бенчмарках математических рассуждений (например, +8,8% на AIME 24 при использовании исследователя с 1,7 млрд параметров для направления модели с 8 млрд параметров), при этом снижая вычислительные затраты на генерации.

Пропустить слой или зациклить его? Обучение программе из слоев в LLM
Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Jun 4

ByZiyue Li, Yang Li, Tianyi Zhou

Большие языковые модели (LLM) выполняют инференс, следуя фиксированной глубине и порядку, при нерекуррентном выполнении всех слоёв. Мы обнаружили широкое существование свободных от обучения, гибких, динамических программ слоёв (PoLar), где предобученные слои могут упаковываться как модули, а затем пропускаться или повторяться, формируя настраиваемую программу для каждого входного сигнала. Для большинства входных сигналов существенно более короткие выполнения программ могут достичь той же или лучшей точности, в то время как неверные предсказания исходной LLM могут быть исправлены альтернативными программами с меньшим числом слоёв. Эти наблюдения указывают на то, что инференс допускает множество правильных скрытых вычислений за пределами стандартного прямого прохода. Для эффективного достижения PoLar на практике мы предлагаем легковесную сеть предсказания PoLar, которая учится генерировать программы выполнения, динамически пропускающие или повторяющие предобученные слои для каждого входного сигнала. Эксперименты на бенчмарках математических рассуждений показывают, что PoLar последовательно улучшает точность по сравнению со стандартным инференсом и предыдущими методами динамической глубины, часто при выполнении меньшего числа слоёв, и что эти выгоды сохраняются при оценке вне распределения. Наши результаты позволяют предположить, что выполнение с фиксированной глубиной захватывает лишь узкое подмножество скрытой способности рассуждения LLM.

Измерение эпистемической устойчивости больших языковых моделей в условиях вводящего в заблуждение медицинского контекста
Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

Jun 10

ByHongjian Zhou, Xinyu Zou, Jinge Wu, Sean Wu, Junchi Yu, Bradley Max Segal, Tobias Erich Niebuhr, Sara Amro, Michael Petrus, Sheikh Momin, Alexandra M. Cardoso Pinto, Rachel Niesen, Laura Sophie Wegner, Dhruv Darji, Jung Moses Koo, Joshua Fieggen, Kapil Narain, Mingde Zeng, Lei Clifton, Linda Shapiro, Fenglin Liu, David A. Clifton

Большие языковые модели (БЯМ) в настоящее время достигают результатов на уровне экспертов при сдаче медицинских лицензионных экзаменов, что подкрепляет предположение о том, что высокие баллы подразумевают безопасность медицинских суждений, в то время как пациенты всё чаще используют их для получения медицинских советов. Мы показываем, что это предположение несостоятельно: при внедрении вводящего в заблуждение контекста в вопросы, на которые БЯМ первоначально отвечали правильно, они отказываются от правильного ответа. Мы называем способность сохранять верное суждение в условиях враждебного контекста эпистемической устойчивостью и вводим MedMisBench для её измерения. MedMisBench содержит 10 932 медицинских вопроса и 48 889 пар «вводящий в заблуждение контекст — вариант ответа», охватывающих медицинские рассуждения, агентные способности и оценку пути пациента. На 11 конфигурациях моделей средняя точность падает с 71,1% на исходных вопросах до 38,0% в условиях целенаправленного вводящего в заблуждение контекста, с успехом атаки в 51,5% случаев. Наиболее разрушительными являются формальные, построенные по типу правил фабрикации: ложные утверждения, поданные в авторитетной рамке, достигают 69,5% успеха атаки, а утверждения «отравления исключениями» — 64,1%. Клиническая панель из 14 специалистов из 7 стран выявила серьёзный потенциальный вред в 38,2% рассмотренных случаев. MedMisBench обнажает структурное слепое пятно в оценке БЯМ в медицинских условиях: существующие тесты измеряют то, что модели знают, но не то, сохраняют ли они правильное медицинское суждение в условиях вводящего в заблуждение контента.

RedAct: Редактирование следов возможностей агента для защиты процедурных навыков
RedAct: Redacting Agent Capability Traces for Procedural Skill Protection

Jun 10

ByShuwen Xu, Zhitao He, Yi R. Fung

Пользователи полагаются на трассировки выполнения для наблюдения за поведением агента, диагностики сбоев и обеспечения подотчетности. Эти трассировки содержат детальные процедурные сведения, включая вызовы инструментов, промежуточные решения и логику восстановления после ошибок. Однако эта детализация может раскрыть приватные процедурные навыки, позволяя нисходящим методам восстанавливать ключевые формулы, пороговые значения и стратегии без доступа к весам модели или файлам навыков. Для количественной оценки этого риска и оценки защиты мы создаем CapTraceBench — бенчмарк из 75 специализированных долгосрочных задач и 154 тщательно отобранных навыков из семи областей. Мы также представляем RedAct (https://github.com/XuShuwenn/RedAct) — фреймворк для защищенного выпуска трассировок, который локализует защищаемую ключевую информацию, переписывает трассировки с сохранением критически важных для верификатора доказательств и встраивает поведенческие водяные знаки для последующего анализа происхождения. При использовании репрезентативных методов повторного использования трассировок RedAct снижает нормализованный перенос навыков (NST) с 44,7–67,1% на исходных трассировках до уровня ниже базового значения без навыков, сохраняя при этом аудиторские доказательства. Его автономные поведенческие водяные знаки достигают 93,6–100,0% истинного обнаружения при частоте ложных срабатываний не более 1,9%. Эти результаты представляют публичные трассировки агентов как интерфейсы безопасности и показывают, что выборочное редактирование может снизить утечку процедурных возможностей без удаления аудиторских доказательств.

Агенты LLM могут видеть репозитории кода
LLM Agents Can See Code Repositories

Jun 12

ByDongjian Ma, Silin Chen, Yufei Yang, Yulin Shi, Yanfu yan, Xiaodong Gu

Агенты кодирования, работающие на основе больших языковых моделей, продемонстрировали высокую производительность при решении задач программной инженерии. Однако большинство таких агентов воспринимают репозитории практически полностью как текст, что отличается от того, как разработчики-люди используют визуальные структуры, такие как иерархии папок и зависимости, для ориентации в крупных базах кода. С появлением мультимодальных больших языковых моделей (MLLM) остается открытым вопрос о том, могут ли агенты эффективно использовать визуальные представления репозиториев. В данной статье представлено первое систематическое эмпирическое исследование визуальных представлений репозиториев для LLM-агентов, направленное на разрешение проблем на уровне репозитория. Мы оцениваем четыре современные мультимодальные модели. Наши результаты показывают, что строго визуальная настройка снижает точность и увеличивает затраты токенов, поскольку агентам не хватает достаточных символьных деталей, и они компенсируют это повторными визуальными запросами. Напротив, интеграция визуальных графов структуры репозитория в качестве дополнительной модальности наряду со стандартными текстовыми интерфейсами помогает агентам более эффективно понимать структуру: потребление входных токенов снижается до 26%, при этом точность разрешения проблем сохраняется или улучшается. Визуализация наиболее полезна на этапе локализации ошибок и когда агент автономно контролирует глубину исследования. Эти результаты указывают на практический гибридный текстово-визуальный дизайн для агентов кодирования следующего поколения.

RepFusion: Использование мультимодальных априорных знаний для шумоподавления в пространстве представлений
RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space

Jun 12

ByXichen Pan, Aashu Singh, Satya Narayan Shukla, Xiangjun Fan, Shlok Kumar Mishra, Saining Xie

Большие языковые модели (LLM) широко используются в системах «текст-в-изображение» (T2I), однако они, как правило, ограничены кодированием текста, в то время как шумоподавление осуществляется недавно обученными генеративными магистралями. Появление автоэнкодеров представлений (RAE) смещает цель генерации в сторону семантически структурированных визуальных представлений, создавая латентное пространство, более совместимое с априорными знаниями предобученных LLM. Вдохновляясь мультимодальными LLM (MLLM), где проектора MLP достаточно для выравнивания чистых визуальных представлений с предобученной LLM, мы перепрофилируем саму MLLM в качестве энкодера зашумленных представлений, распространяя этот механизм с чистых на зашумленные входные данные. Мы представляем RepFusion, который использует результирующие выходы MLLM как сигнал обусловленности для диффузионного трансформера. При контролируемых сравнениях в рамках схожих вычислительных бюджетов при инференсе RepFusion превосходит базовые подходы, выделяющие сопоставимую вычислительную мощность на инициализированные с нуля деноизеры. Эти результаты демонстрируют, что MLLM предоставляют сильные априорные знания для шумоподавления визуальных представлений, и что, обусловливаясь на эволюционирующих зашумленных представлениях, вычислительные ресурсы во время тестирования могут быть продуктивно потрачены на повторное применение MLLM в современных системах T2I.

iMaC: Преобразование действий в изображения движения и контакта для воплощенных моделей мира
iMaC: Translating Actions into Motion and Contact Images for Embodied World Models

Jun 8

ByZhenyu Wu, Xiuwei Xu, Yukun Zhou, Yifan Li, Qiuping Deng, Xiaofeng Wang, Zheng Zhu, Bingyao Yu, Ziwei Wang, Jiwen Lu, Haibin Yan

Воплощённые мировые модели стали ключевой парадигмой для визуального принятия решений роботами и интерактивного симулирования окружающей среды. Однако традиционные воплощённые архитектуры опираются на низкоразмерные структурированные векторы действий (например, углы шарниров и позы конечных эффекторов), которые страдают от ограниченной выразительной способности, слабой обобщаемости для различных воплощений и неестественного моделирования динамики при сложных физических взаимодействиях. Для преодоления этих ограничений в данной статье предлагается iMac (Image as Action Control) — новая унифицированная парадигма управления, которая рассматривает необработанные визуальные изображения как естественные представления действий для воплощённых мировых моделей. Отходя от традиционного явного кинематического кодирования действий, iMac формулирует непрерывное визуальное манипулирование в виде токенов действий на основе изображений, которые внутренне инкапсулируют пространственные намерения движения, интерактивные геометрические ограничения и тонкие физические динамики. Мы построили воплощённую архитектуру с двумя ветвями, состоящую из кодировщика изображений-действий и предиктора динамического мира: первый сжимает целевые визуальные изображения в компактные встраивания действий, а второй изучает правила перехода окружения, обусловленные действиями на основе изображений, для достижения высокоточного предсказания будущего состояния и замкнутого воплощённого управления. Проведены обширные эксперименты на общедоступных эталонных тестах воплощённого манипулирования и реальных робототехнических сценариях. Результаты демонстрируют, что iMac превосходит базовые методы управления на основе векторов действий по точности предсказания, успешности выполнения задач и способности к обобщению на различные сцены. Более того, наша конструкция действий на основе изображений устраняет зависимость от вручную определённых пространств действий, реализуя гибкое и универсальное управление для гетерогенных воплощённых агентов. Данная работа предлагает инновационную визуально-действенную перспективу для воплощённых мировых моделей, предоставляя простую, но эффективную парадигму для масштабируемого роботизированного восприятия и манипулирования.

Hy-Embodied-0.5-VLA: От моделей зрения-языка-действия к стеку обучения роботов в реальном мире
Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack

Jun 12

ByHe Zhang, Lingzhu Xiang, Haitao Lin, Zeyu Huang, Minghui Wang, Dingyan Zhong, Yubo Dong, Yihao Wu, Yongming Rao, Dongsheng Zhang, Wanjia He, Ling Chen, Kai Huang, Jiahao Chen, Sichang Su, Xumin Yu, Ziyi Wang, Chengwei Zhu, Xiao Teng, Yuchun Guo, Yufeng Zhang, Yuandong Liu, Rui Wang, Zisheng Lu, Han Hu, Zhengyou Zhang

В данном отчете мы представляем Hy-Embodied-0.5-VLA (сокращенно HyVLA-0.5) — сквозную систему, охватывающую полный стек обучения роботов: сбор данных, проектирование модели, продолженное предварительное обучение и контролируемая донастройка, пост-обучение с подкреплением (RL) и развертывание в реальном мире. Каждый компонент выполняет свою четко определенную роль в этом стеке.

Pythagoras-Prover: Продвижение эффективного формального доказательства посредством дополненной формализации Lean
Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation

Jun 10

ByJoshua Ong Jun Leang, Zheng Zhao, Mihaela Cătălina Stoian, Qiyuan Xu, Haonan Li, Wenda Li, Shay B. Cohen, Eleonora Giunchiglia

Современные Lean-доказатели теорем достигают высокой производительности лишь при значительных вычислительных затратах на обучение и инференс, что отчасти обусловлено дефицитом верифицированных данных доказательств и длинными цепочками рассуждений при формальном поиске доказательств, что делает как контролируемую тонкую настройку (SFT), так и сэмплирование затратными. Мы представляем Pythagoras-Prover — семейство вычислительно эффективных Lean-доказателей теорем с открытым исходным кодом, созданных для практических вычислительных бюджетов. Семейство охватывает две парадигмы генерации: авторегрессионные модели с 4B и 32B параметрами, а также первую концептуальную диффузионную модель доказателя (4B), которая итеративно уточняет Lean-доказательства во время инференса. Для эффективности обучения мы построили верифицированный на Lean корпус, стратифицированный по задачам лёгкой, средней и сложной сложности для учебной SFT, благодаря чему модели постепенно овладевают навыками доказательства — от более коротких и простых к более длинным и сложным. В ходе SFT динамический фильтр рассуждений о доказательствах сохраняет информативные цепочки, удерживая каждый экземпляр в пределах контекстного бюджета в 8k токенов. Мы также вводим Augmented Lean Formalisation (ALF), который расширяет скудные верифицированные корпуса за счёт вариантов формальных утверждений, пополняемых с помощью самодистилляции для получения дополнительного обучающего сигнала без полной формальной верификации каждой мутированной части. Возмущая известные задачи с сохранением их формального характера, ALF снижает зависимость от поверхностной формы любого утверждения. Эмпирически Pythagoras-Prover-4B превосходит DeepSeek-Prover-V2-671B по показателю pass@32 на MiniF2F-Test (86,1% против 82,4%) при примерно в 167 раз меньшем числе параметров, а Pythagoras-Prover-32B устанавливает открытый рекорд с результатом 93,0% на MiniF2F-Test и решает 93 из 672 задач PutnamBench. Мы выпускаем MiniF2F-ALF — бенчмарк, чувствительный к контаминации, мутированный с помощью ALF, на котором все протестированные модели теряют точность; здесь наша 32B модель остаётся сильнейшей, а 4B модель сравнивается с предыдущим рекордсменом Goedel-Prover-V2-32B.

Никаких скрытых промптов не нужно! Вы можете обыграть AI-рецензирование с помощью правок, затрагивающих только оформление.
No Hidden Prompts Needed! You Can Game AI Peer Review with Presentation-Only Revisions

Jun 11

ByXu Yang, Zhizhou Sha, Junbo Li, Jian Yu, Yifan Sun, Matthew Zhao, Jinrui Fang, Xinyue Guo, Yining Wu, Xu Hu, Yifu Luo, Qiang Liu, Zhangyang Wang

По мере того как обзоры, сгенерированные ИИ, переходят от экспериментальных инструментов в инфраструктуру рецензирования, основные опасения по поводу устойчивости были сосредоточены на явных атаках, таких как скрытые инструкции и инъекция подсказок. Мы изучаем более сложный и более актуальный с политической точки зрения режим отказа: без скрытого текста, без инъекций подсказок и без изменений методов, экспериментов, рисунков, уравнений, доказательств или численных результатов. Злоумышленник изменяет только контент на уровне презентации, такой как аннотация, формулировка вклада, связанные работы, обсуждение и структура повествования. Мы вводим состязательную переупаковку: замкнутую атаку, которая использует обратную связь от ИИ-рецензента для поиска изменений на уровне презентации при сохранении фиксированными научных данных. На трех популярных ИИ-рецензентах состязательная переупаковка достигает 75,1% успешности атаки и среднего прироста оценки +1,21/10. Этот эффект не объясняется обычной шлифовкой прозы. Мы также показываем, что стратегии, изменяющие способ интерпретации статьи рецензентом, такие как перепозиционирование связанных работ и расширение аналитического обсуждения, значительно превосходят поверхностные правки, такие как локальная полировка, форматирование таблиц и блоки алгоритмов. Наш анализ выявляет два более глубоких структурных режима отказа. Во-первых, ИИ-рецензентов легче впечатлить, чем убедить: выделение сильных сторон надежно повышает воспринимаемую ценность, в то время как попытки устранить слабые места часто дают обратный эффект. Во-вторых, ИИ-рецензенты могут путать видимость устранения ограничения с его фактическим разрешением, позволяя неизменным данным быть переосмысленными как более сильный научный вклад. Эти результаты показывают, что риск развертывания заключается не только в злонамеренных скрытых инструкциях, но и в появлении самой презентации статьи как поверхности для оптимизации. Мы выпускаем свободный от загрязнений постоянно обновляемый бенчмарк и фреймворк для атак для проверки того, остаются ли ИИ-рецензенты привязанными к научному содержанию при редактировании только презентации.

VISTA: Согласованное по представлениям самоверифицируемое обучение для привязки к графическому интерфейсу пользователя
VISTA: View-Consistent Self-Verified Training for GUI Grounding

Jun 12

ByXinyu Qiu, Yunzhu Zhang, Heng Jia, Shuheng Shen, Changhua Meng, Linchao Zhu

При применении GRPO для привязки к графическому интерфейсу (GUI Grounding) прогоны (rollouts) выбираются из одного снимка экрана; группы часто оказываются либо полностью неудачными на сложных примерах, либо полностью успешными на простых, что не дает полезного относительного преимущества. Мы предлагаем VISTA (View-Consistent Self-Verified Training) — фреймворк обучения на основе GRPO, который формирует каждую группу сравнения из нескольких сохраняющих цель видов одного и того же экземпляра GUI. Каждый вид создается путем обрезки, сохраняющей целевой элемент видимым и точно переназначающей его рамку, так что прогоны модели сравниваются по семантически эквивалентным, но геометрически различным входам. Для стабилизации генерации коротких координат без превращения обучения с подкреплением в безусловную имитацию VISTA дополнительно добавляет самоверифицируемый кросс-вью якорь: оракул-ответ, оптимизированный с помощью потери с взвешиванием по преимуществу, исключенный из базовой линии группы и активируемый только тогда, когда модель выдала прогон с максимальным вознаграждением. На пяти бенчмарках привязки к GUI и нескольких бэкбоунах Qwen VISTA последовательно улучшает точность привязки. На ScreenSpot-Pro он повышает точность Qwen3-VL 4B/8B/30B-A3B с 55,5/52,7/53,7 до 63,4/65,8/67,0. Анализ робастности дополнительно показывает более высокую точность на худшем виде и более низкую частоту переключений предсказаний.

MBench: Всесторонний бенчмарк способности к памяти для видеомировых моделей
MBench: A Comprehensive Benchmark on Memory Capability for Video World Models

Jun 8

ByShengjun Zhang, Zhang Zhang, Simin Huang, Zhenyu Tang, Hanyang Wang, Chensheng Dai, Min Chen, Yifan Li, Yuxin Li, Yingjie Chen, Hao Liu, Chen Li, Jing Lyu, Yueqi Duan

Недавние достижения в области видео-мировых моделей продемонстрировали беспрецедентную способность синтезировать высококачественные визуальные последовательности. Однако сохраняется фундаментальный разрыв между визуально правдоподобной генерацией видео и функциональными требованиями к мировой модели, особенно в поддержании стабильного и разумного внутреннего состояния на протяжении длительных временных горизонтов. Существующие эталонные тесты в первую очередь оценивают визуальное качество, согласованность движения и соответствие текст-видео, но в значительной степени игнорируют память — ключевую способность мировой модели сохранять согласованность на больших временных интервалах и при сложных взаимодействиях. Для восполнения этого пробела мы представляем MBench — комплексный эталонный тест, предназначенный для количественной оценки и анализа способности к запоминанию у видео-мировых моделей. Мы систематически разлагаем способность к запоминанию видео-мировых моделей на три иерархических и взаимодополняющих базовых измерения: согласованность сущностей, согласованность окружения и причинно-следственную согласованность, которые далее детализируются до 12 измеримых подизмерений для всесторонней характеристики долговременной памяти. Наш эталонный тест построен на тщательно отобранных реальных длинных видеозаписях и оценивается с помощью количественных метрик на основе правил и модели VLM для обеспечения объективной и всесторонней оценки согласованности. Обширная оценка современных передовых видео-мировых моделей выявила критические системные ограничения существующих методов в сохранении долговременного состояния, предоставляя стандартизированный эталонный тест и четкое направление исследований для продвижения данной области.

μ_0: Масштабируемая 3D-мировая модель на основе следов взаимодействия
μ_0: A Scalable 3D Interaction-Trace World Model

Jun 11

BySeungjae Lee, Yoonkyo Jung, Jusuk Lee, Jonghun Shin, Amir Hossein Shahidzadeh, Yao-Chih Lee, H. Jin Kim, Jia-Bin Huang, Furong Huang

Мировые модели, которые фиксируют, как действия вызывают физические изменения, позволяют масштабируемому обучению роботов без привязки к специфичным для воплощения меткам действий. Пиксельные видеомодели обеспечивают широкие визуальные априорные знания, но расходуют емкость модели на плотную реконструкцию внешнего вида, тогда как модели прямого действия требуют меток, специфичных для воплощения, что ограничивает масштабируемость. Мы представляем μ_0 — масштабируемую мировую модель, основанную на трехмерных трассах. Вместо прогнозирования плотных пикселей или непосредственного моделирования действий, μ_0 предсказывает гладкие трехмерные траектории для значимых точек взаимодействия (объектов, инструментов, рук и зон контакта), формируя компактный, не зависящий от воплощения интерфейс движений. Для возможности обучения на разнообразных видеоисточниках наша система TraceExtract автоматически извлекает трехмерные обучающие сигналы путем выбора ключевых точек, построения глобально согласованных трасс и ассоциирования сегментов движения с иерархическими текстовыми описаниями на естественном языке. Этот надзор от TraceExtract предобучает μ_0, объединяя предварительно обученный визуально-языковой бэкбон с модульным экспертом по трассам, который представляет каждый запрос через контрольные точки B-сплайна и прогнозирует будущие трассы. Эксперименты показывают, что μ_0 превосходит базовые модели в прогнозировании как двумерных, так и трехмерных трасс, включая модели прогнозирования трасс и токенизированные VLM-методы. Поскольку μ_0 является замороженной и многократно используемой, она может сочетаться с экспертами по действиям для последующего применения на воплощениях роботов. Несмотря на предобучение без действий, результирующие политики, обусловленные трассами, достигают производительности, сопоставимой с VLA-моделями, предобученными с надзором по действиям, такими как π_0. Эти результаты утверждают трехмерные трассы как масштабируемое и переносимое представление для манипуляций, не зависящих от конкретного воплощения.

Агент-арбитр: непрерывный мониторинг многоагентных диалогов для выявления возникающего рассогласования
The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

Jun 9

ByFilippo Tonini, Federico Torrielli, Anton Danholt Lautrup, Peter Schneider-Kamp, Mustafa Mert Çelikok, Lukas Galke Poech

По мере того как ИИ-системы, состоящие из нескольких агентов на основе языковых моделей, становятся всё более распространёнными, они всё чаще используются для совместного принятия решений: обсуждения, переговоры и выполнение общих задач. Хотя отдельные агенты могут выглядеть хорошо выровненными при тестировании по отдельности, проблемы могут возникать из-за того, как они взаимодействуют друг с другом. Мы представляем Арбитра — агента, предназначенного для мониторинга многоголовых разговоров в реальном времени и выявления участников, которые могут вести себя невыровненно. Арбитр работает в условиях ограниченного «бюджета проверки», то есть должен тщательно решать, как использовать свои ресурсы. Наблюдая за разговором шаг за шагом, он может выбирать: ждать, задать вопрос участнику, изучить внутреннюю информацию, такую как системные промпты или трассы рассуждений, либо зарегистрировать вызывающее беспокойство поведение. В конце он составляет отчёт, в котором указывается вероятный источник невыровненности. Мы оцениваем Арбитра на пяти сценариях разговора, от модельных организмов с рискованными финансовыми советами до агентов, осведомлённых об оценке и сговаривающихся, и тестируем пять конфигураций инструментов возрастающей мощности, а также две базовые модели. Мы обнаружили, что Арбитр надёжно выявляет невыровненных агентов задолго до окончания разговора, причём активные инструменты проверки улучшают как точность, так и скорость обнаружения. Наиболее сложной для обнаружения оказалась невыровненность, вызванная весами, тогда как невыровненность, индуцированная инструкциями, надёжно выявляется даже при пассивном наблюдении. Инструмент журналирования демонстрирует двойственный эффект, улучшая полноту за счёт точности. Эти результаты показывают, что непрерывный мониторинг с учётом бюджета позволяет эффективно улавливать невыровненность, а для контроля многоголовых систем может потребоваться рассматривать аудитора как активного участника процесса. Код доступен по адресу https://github.com/aisilab/arbiter.

Avatar V: Масштабирование генерации видео-аватаров по видео-референсу
Avatar V: Scaling Video-Reference Avatar Video Generation

Jun 11

ByBenjamin Liang, Ce Chen, Desmond Lin, Ivan Somov, Jiajun Zhao, Jiewei Yuan, Jingfeng Zhang, Junhao Huang, Nik Nolte, Pedram Haqiqi, Penghan Wang, Rong Yan, Rui Zhang, Sam Prokopchuk, Sivan Wang, Viktor Goriachko, Yi Ren, Yuanming Li, Yutao Chen, Zhenhui Ye, Zhibin Hong, Zilong Nie, Zujin Guo

Создание аватаров, которые не просто визуально похожи на целевого человека, но и поведенчески узнаваемы, точно воспроизводя его ритм речи, жестикуляцию и динамику выражений лица, остается открытой проблемой. Существующие методы в основном опираются на одиночные статические изображения, которые дают недостаточно информации о личности и не позволяют улавливать динамические двигательные характеристики, в то время как стандартные пиксельные функции не охватывают критически важные для восприятия области лица, определяющие качество аватара. Мы представляем Avatar V — платформу производственного масштаба, которая решает эти ограничения с помощью моделирования личности, обусловленного видеоссылками. Вместо сжатия личности в эмбеддинги фиксированного размера модель напрямую использует полную последовательность токенов эталонного видео, обучаясь воспроизводить как статические атрибуты личности (геометрию лица, текстуру кожи), так и динамические поведенческие паттерны (ритм речи, микровыражения) через внимание к контексту эталонного видео. Мы внедряем Разреженное Эталонное Внимание — асимметричный механизм, обеспечивающий наложение условий на произвольно длинные эталонные последовательности с линейной сложностью; поток представления движений, позволяющий замкнутую передачу стиля речи; а также уточнитель сверхразрешения, учитывающий личность и наследущий полное обусловливание эталонным видео. Эти компоненты поддерживаются механизмом обработки данных, который отбирает более 100 млн тренировочных клипов из 50 млн исходных видео, и пятиэтапным конвейером обучения с предварительным обучением на основе согласования потоков, тонкой настройкой личности, двухфазной дистилляцией (ускорение более чем в 10 раз) и выравниванием с обратной связью от человека (RLHF), развернутым на тысячах GPU. Avatar V генерирует видео 1080p неограниченной длительности, достигая передовых показателей сохранения личности, синхронизации губ и качества генерации на нашем межсценарном эталоне, стабильно превосходя ведущие системы, включая Seedance 2.0, Kling O3 Pro, Veo 3.1 и OmniHuman 1.5, как по автоматическим метрикам, так и по оценкам человека.

RhymeFlow: ускорение без обучения для генерации видео с асинхронным планированием потока шумоподавления
RhymeFlow: Training-Free Acceleration for Video Generation with Asynchronous Denoising Flow Scheduling

Jun 4

ByChensheng Dai, Shengjun Zhang, Yifan Li, Zhang Zhang, Zheng Zhu, Yueqi Duan

Модели генерации видео на основе Diffusion Transformers (DiTs) демонстрируют впечатляющие результаты в видеосинтезе, однако страдают от высокой задержки вывода и вычислительных затрат из-за квадратичной сложности трехмерного внимания. Существующие методы ускорения в основном снижают вычислительную сложность на каждом отдельном шаге шумоподавления с помощью таких методов, как разреженное внимание и KV-кэширование. Однако они жестко придерживаются неотъемлемого ограничения стандартного диффузионного пайплайна: каждый кадр целевой видеопоследовательности должен подвергаться полному, плотному процессу шумоподавления на всех диффузионных временных шагах. Мы замечаем, что из-за соответствующего содержимого и движений между смежными кадрами, когда ключевые кадры с критическими семантическими переходами закреплены, промежуточные состояния других кадров часто следуют более предсказуемым траекториям, что указывает на то, что такой равномерный, плотный процесс шумоподавления по своей сути избыточен для естественных видеоданных. С этой целью мы представляем RhymeFlow — безучебный фреймворк, который разделяет траектории шумоподавления разных кадров. В частности, мы сначала определяем разреженный набор ключевых кадров, доминирующих в латентной семантической эволюции. Затем только эти ключевые кадры подвергаются плотному покадровому шумоподавлению для обеспечения структурной целостности, в то время как неключевые кадры постепенно пропускают шаги шумоподавления, чтобы минимизировать вычислительные затраты. Поскольку пропущенные промежуточные состояния неключевых кадров нарушают временную согласованность на этапах шумоподавления ключевых кадров, что приводит к ухудшению визуального качества, мы дополнительно вводим модуль проекции латентной траектории, который позволяет ключевым кадрам взаимодействовать с полным и временно согласованным представлением последовательности. Обширные эксперименты на текущих моделях генерации видео на основе DiTs показывают, что наш метод превосходит существующие базовые решения с более высокой скоростью вывода и лучшим визуальным качеством.

Скрытая сила масштабирующего коэффициента в оптимизации LoRA
The Hidden Power of Scaling Factor in LoRA Optimization

Jun 11

ByZicheng Zhang, Haoran Li, Jiaxing Wang, Guoqiang Gong, Anqi Li, Yudong Hu, Ting Xiong, Yurong Gao, Junxing Hu, Zhida Jiang, Yifeng Zhang, Pengzhang Liu, Qixia Jiang

В адаптации низкого ранга (LoRA) масштабирующий коэффициент α часто рассматривается как mere дополнение к скорости обучения, однако его роль в оптимизации остается плохо понятой. В данной статье мы показываем, что масштабирующий коэффициент α и скорость обучения выполняют разные функции, причем α выступает доминирующим фактором эффективной оптимизации, обеспечивая выигрыши, которые невозможно воспроизвести одним лишь масштабированием скорости обучения. Благодаря сочетанию обширного эмпирического анализа и теоретической основы «Сигнал-Дрейф» мы обнаружили три аспекта механизма масштабирования LoRA: во-первых, спектральное подавление LoRA сглаживает ландшафт оптимизации, делая стандартные гиперпараметры излишне консервативными и создавая разрыв в оптимизации. Во-вторых, при использовании этого сглаживания для ускорения сходимости α превосходит скорость обучения, усиливая целевой сигнал без увеличения коэффициента дрейфа. В-третьих, оптимальный масштабирующий коэффициент демонстрирует сублинейную зависимость от ранга, хорошо описываемую законом квадратного корня с неожиданно большим коэффициентом, что выявляет недостаточное масштабирование существующих эвристик, связанных с рангом. Основываясь на этих выводах, мы предлагаем LoRA-α — минималистичную структуру, которая возвращает α в его принципиальный режим, делая LoRA совместимой со стандартными малыми значениями скорости обучения. Обширные оценки на разнообразных задачах демонстрируют, что LoRA-α последовательно улучшает производительность, одновременно упрощая поиск гиперпараметров и раскрывая обучающий потенциал LoRA.

Когда ваша LLM управляема?
When is Your LLM Steerable?

Jun 10

ByChenrui Fan, Yize Cheng, Ming Li, Soheil Feizi, Tianyi Zhou

Активационное управление представляет собой легковесный подход к контролю поведения языковых моделей на этапе логического вывода, однако его успешность или неудача существенно зависят от запроса, концепции, модели и конфигурации управления. Поиск режима и границ успешного управления обычно требует дорогостоящего перебора по сетке и последующей оценки полных авторегрессивных разверток. В данной работе мы исследуем, можно ли предсказать управляемость по внутренним состояниям модели в начале процесса генерации, например, после генерации первых нескольких токенов, и как использовать такой предиктор для повышения вероятности успешного управления. С этой целью мы сначала представляем ASTEER — тестовый набор, включающий 1,4 млн управляемых генераций, охватывающих 150 концепций, каждая из которых помечена как успешное или неудачное управление. Используя этот набор, мы анализируем раннюю динамику декодирования модели, извлекая признаки, которые сравнивают скрытые состояния до и после управления на различных слоях и этапах начального декодирования. Эти признаки помогают нам понять, как эффекты управления распространяются по слоям и токенным позициям, предоставляя ключевую информацию для предсказания управляемости. Затем мы обучаем классификатор на основе градиентного бустинга деревьев решений (GBDT) на этих признаках, чтобы предсказать, приведет ли вмешательство к недостаточному, успешному или чрезмерному управлению, без необходимости полной развертки. Наш предиктор достигает макро-F1 около 0,7 на невидимых концепциях, демонстрируя, что ранние скрытые состояния содержат значительную структурированную информацию о конечной эффективности управления. Мы также используем этот предиктор управляемости в качестве ориентира для поиска силы управления, достигая близкой к оптимальной производительности при незначительной доле затрат на декодирование.

ClinHallu: Бенчмарк для диагностики поэтапных галлюцинаций в рассуждениях медицинских MLLM
ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

Jun 12

BySicheng Yang, Hangjie Yuan, Wenjun Zhang, Jinwang Wang, Yichen Qian, Weihua Chen, Fan Wang, Lei Zhu

Создание надежных медицинских мультимодальных больших языковых моделей (ММБЯМ) имеет решающее значение для достоверной поддержки клинических решений. Существующие бенчмарки медицинских галлюцинаций в основном сосредоточены на сборе данных, но часто игнорируют то, где в процессе рассуждения возникают галлюцинации. Мы обнаружили, что источники галлюцинаций варьируются в зависимости от примеров: ошибки могут возникать из-за неправильного визуального распознавания, некорректного вспоминания медицинских знаний или ошибочной интеграции рассуждений. Для диагностики галлюцинаций на уровне источника мы представляем ClinHallu — бенчмарк для поэтапной диагностики галлюцинаций в процессе рассуждения медицинских ММБЯМ. ClinHallu содержит 7 031 валидированный экземпляр, каждый из которых дополнен структурированным следом рассуждений, разбитым на этапы: визуальное распознавание, вспоминание знаний и интеграция рассуждений. Мы также используем вмешательства с заменой этапов, чтобы измерить, как исправление конкретных этапов влияет на итоговый ответ. Помимо оценки, мы показываем, что точная настройка с использованием следов рассуждений уменьшает поэтапные галлюцинации. ClinHallu предоставляет тонкозернистую тестовую среду для диагностики и смягчения ошибок рассуждений в медицинских ММБЯМ. Бенчмарк доступен по адресу https://github.com/alibaba-damo-academy/ClinHallu.

LoSoNA: Бенчмарк для адаптации локальных социальных норм в групповых беседах
LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations

Jun 12

ByMateusz Winiarek, Maksymilian Bilski, Mateusz Jacniacki

Онлайн-групповые чаты представляют собой социальные пространства с локальными нормами общения, которые редко формулируются явно. Способность и готовность агентов на основе больших языковых моделей (LLM) распознавать и адаптироваться к этим нормам остаются в значительной степени неизученными. Мы представляем LoSoNA — бенчмарк для оценки адаптации к локальным социальным нормам в многостороннем чате. Каждый сценарий предоставляет модели-субъекту тщательно подобранный транскрипт группового чата, в котором участники, не являющиеся субъектом, демонстрируют скрытую локальную норму, после чего следует финальная реплика-стимул, принуждающая к ответу, раскрывающему, сделал ли субъект вывод о данной норме. Мы оцениваем восемь передовых моделей и моделей с открытыми весами в четырех условиях промпта, различающихся по степени явности указания модели рассматривать предшествующий разговор как основание для того, как следует отвечать. Наивный промптинг остается ограниченным для большинства моделей; явный промптинг с учетом норм помогает неравномерно: Gemini 3.1 Pro достигает 84,2%, а Claude Fable 5 — 81,6%, тогда как ряд других моделей демонстрируют незначительные улучшения или регресс. LoSoNA вносит вклад в недавние призывы к оценке социальных способностей LLM, проверяя, могут ли модели выводить локальные нормы общения из прецедентов и использовать их в одноходовом ответе в групповом чате.

Бенчмаркинг ИИ-агентов для решения научных задач в различных масштабах
Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

Jun 10

ByTianyu Liu, Allen Xin Wang, Antonia Panescu, Lisa Xinyi Chen, Wenxin Long, Xinyu Wei, Yueqian Jing, Ziyao Zeng, Jihang Chen, Sihan Jiang, Ziqing Wang, Siyi Gu, Siyu Chen, Xinyang Hu, Haoran Shao, Leqi Xu, Wangjie Zheng, Zhiyuan Cao, Ada Fang, Botao Yu, Kunyang Sun, Rex Ying, Arman Cohan, Qingyu Chen, Lingzhou Xue, Kaize Ding, Yuanqi Du, Wengong Jin, Zhuoran Yang, Marinka Zitnik, James Zou, Hua Xu, Hongyu Zhao

Агенты искусственного интеллекта все активнее разрабатываются для ускорения научных открытий, однако их практические возможности в реальных исследовательских условиях остаются плохо изученными. Существующие бенчмарки для агентов ИИ редко учитывают сложность, разнородность и длительные рассуждения, необходимые для научной работы, тогда как бенчмарки для научных задач часто сводят исследование к статическим, прямым задачам и предоставляют ограниченную поддержку для интерактивной оценки. Здесь мы представляем SciAgentArena — систематический бенчмарк для оценки агентов ИИ в реальных сценариях научных исследований, основанный на возникающих потребностях в различных областях. SciAgentArena включает примерно 200 задач с пошаговой верификацией и интерактивную, не зависящую от агентов среду для оценки различных агентов ИИ. Используя этот бенчмарк, мы обнаружили, что современные агенты могут эффективно вносить вклад в четко определенные рабочие процессы анализа данных, особенно когда структура задачи и критерии оценки ясны. Однако их производительность остается неравномерной в разных научных контекстах: агенты с трудом генерируют по-настоящему новые идеи, поддерживают самостоятельное исследование и формулируют надежные решения для открытых исследовательских вопросов. Мы также характеризуем общие типы сбоев у агентов и определяем возможности для повышения их надежности, автономии и научного мышления. В совокупности SciAgentArena предоставляет практическую основу для измерения прогресса в области агентов ИИ для науки и для руководства разработкой будущих агентов, способных решать сложные научные задачи. Полные коды, задачи и наборы данных доступны по ссылке: https://sciagentarena.github.io/.

Плотное обучение, разреженные обновления: о разреженности и геометрии он-полиси дистилляции
Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

Jun 11

ByGuo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye

Дистилляция на политике (OPD) недавно стала популярным методом пост-тренировки, поскольку объединяет два желаемых компонента: траектории студента на политике и плотное наблюдение учителя. Однако то, как эта гибридная процедура изменяет параметры модели, остается неясным. На нескольких парах языковых и зрительно-языковых моделей и сценариях использования наш анализ выявил два основных результата. Что касается разреженности, обновления в стиле OPD малы и разрежены по координатам. Они распределены по слоям и обычно с преобладанием FFN. Эта разреженная структура полезна на практике: обучение только обнаруженной подсети дает почти такую же производительность, как полная OPD. Однако оптимизатор SGD, индуцирующий разреженность, уступает AdamW в нашем абляции оптимизаторов, вероятно, потому что плотное наблюдение учителя сохраняет гетерогенные покоординатные масштабы градиентов, где адаптивное масштабирование AdamW остается полезным. Что касается геометрии, обновления численно полноранговые, но спектрально сконцентрированы; они в основном лежат вдали от основных сингулярных подпространств исходных весов и непропорционально приходятся на координаты, где исходные веса близки к нулю. Эти результаты показывают, что плотное наблюдение учителя не превращает OPD в обычное плотное переписывание параметров; вместо этого OPD сохраняет важные геометрические признаки пост-тренировки на политике.

AFFORDANCE20Q: Оценка рассуждений об аффордансах на основе физических свойств
AFFORDANCE20Q: Evaluating Affordance Reasoning from Physical Properties

Jun 12

ByYifan Jiang, Meige Yang, Zitong Li, Jay Pujara

Рассуждение об аффордансах — умозаключение о возможностях взаимодействия с объектом на основе его физических свойств (например, формы и материала) — является фундаментальным для физического понимания человека и становится всё более важным для больших языковых моделей (БЯМ). Однако существующие эталонные тесты аффордансов в значительной степени раскрывают явные идентификаторы объектов в экспериментальной установке, что позволяет моделям полагаться на запомненные соответствия «объект–аффорданс» вместо рассуждений о физических свойствах. Чтобы устранить этот пробел, мы представляем Affordance20Q, новый эталонный тест для рассуждений об аффордансах, сформулированный как игра в «20 вопросов» без раскрытия идентификатора объекта. В каждой игре модель определяет аффорданс скрытого объекта из набора кандидатов, задавая вопросы «да/нет» о его физических свойствах. Affordance20Q включает 1009 игр по 454 объектам и 59 аффордансам, все игры вручную отфильтрованы, уточнены и аннотированы. Мы провели всесторонние эксперименты с 15 современными БЯМ и обнаружили существенный разрыв (~20 пунктов) по сравнению с человеческой производительностью. Анализ информационного выигрыша (IG) на основе KL-дивергенции дополнительно показывает, что модели не задают различающие вопросы по мере развития игры. Для преодоления разрыва мы разработали индукцию правил с привязкой к базам знаний (KARI) — конвейер на основе БЯМ, который генерирует правила аффордансов, обоснованные свидетельствами из баз знаний (БЗ). KARI улучшает показатели открытых БЯМ до 15,2 пункта, однако ограниченный охват БЗ препятствует дальнейшему прогрессу. Мы публикуем весь наш код и данные по адресу https://github.com/1171-jpg/Affordance20Q.git.

Загадка искусственного разума: исследование разрыва между генерацией и оценкой в больших моделях рассуждения
An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models

May 31

ByMingzhong Sun, Teresa Yeo, Armando Solar-Lezama, Tan Zhi-Xuan

Исследования человеческого мышления показали, что люди, как правило, лучше оценивают рассуждения, чем создают их с нуля. Напротив, большие модели рассуждений (LRM) обучаются превосходно порождать длинные цепочки рассуждений для решения сложных задач. Как же LRM справляются с оценкой рассуждений? Мы исследуем этот вопрос на наборе данных VAIR (Valid-Answer-Invalid-Reasoning), содержащем математические задачи и решения с тривиальными ошибками в рассуждениях, но верными ответами; этот набор данных предназначен для того, чтобы изолировать оценку рассуждений от смешивающего фактора их порождения. В отличие от людей, которые, как мы обнаружили, лишь на 6% хуже оценивают такие задачи, чем решают их, мы наблюдаем существенный разрыв между порождением и оценкой у LRM: передовые модели набирают лишь 48% правильных ответов при оценке решений VAIR, несмотря на почти идеальное порождение решений. В чем причина этой загадки? Анализ цепочек мыслей (CoT) показывает признаки предвзятости подтверждения ответа: LRM часто сначала порождают ответ, а затем проверяют его правильность вместо тщательной верификации каждого шага, фабрикуя рационализации даже при обнаружении аномальных рассуждений. Линейные зонды подтверждают это, показывая, что, хотя активации LRM кодируют некоторые представления валидных рассуждений, они неспособны надежно представлять решения VAIR как невалидные. Каузальное патчинг представлений финального ответа приводит к переключению вердиктов и активаций модели, демонстрируя, что валидность ответа ответственна за предвзятость подтверждения моделей. Эти результаты указывают на фундаментальное ограничение доминирующих подходов к обучению рассуждениям, которые стимулируют LRM порождать и подтверждать рассуждения, ведущие к правильным ответам, но не обеспечивают надежную оценку лежащих в основе рассуждений.

P3D-Bench: бенчмаркинг MLLM для параметрической 3D-генерации и структурного рассуждения
P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning

Jun 9

ByYikang Yang, Zhanpeng Hu, Youtian Lin, Mengqi Zhou, Jingxi Xu, Feihu Zhang, Jiaheng Liu, Yao Yao

Мультимодальные большие языковые модели могут писать код для создания сложных программ, а также использовать программы для 3D-моделирования, что открывает новое направление в 3D-генерации, основанное на их априорных знаниях, знаниях о мире и рассуждениях. Однако существующие бенчмарки редко оценивают 3D-моделирование с помощью кода. Такое моделирование требует большего, чем просто исполняемый код: на основе текстового или визуального описания модель должна сгенерировать параметрическую 3D-программу, которая является геометрически точной, семантически согласованной и соответствующей сборке. Мы представляем P3D-Bench — бенчмарк для параметрической 3D-генерации. В отличие от 3D-сетки, параметрическая 3D-программа раскрывает явные размеры, операции построения и отношения между частями, показывая, восстанавливает ли модель структуру дизайна, а не только его внешний вид. В рамках единого протокола P3D-Bench охватывает три семейства задач (Text-to-3D, Image-to-3D и Assembly-3D) и оценивает каждый результат по критериям исполняемости, геометрической точности, топологии, текстово-зависимых ограничений, многовидовой семантической согласованности и структуры на уровне частей. Мы оцениваем передовые MLLM и текстовые LLM на 400 текстовых примерах, 400 примерах с изображениями и 203 аннотированных сборках, используя специализированные модели в качестве референсных точек. Наше обширное оценивание дает три результата. Во-первых, сборки являются наиболее сложным сценарием, где модели все еще не могут собрать несколько частей в согласованную структуру. Во-вторых, модели часто могут восстановить глобальную форму и семантическую идентичность целевого объекта, но не могут воспроизвести точную параметрическую геометрию, заданную входными данными. В-третьих, моделирование на уровне частей остается слабым в сборках, где модели не восстанавливают ни геометрию каждой части, ни правильное количество частей. Эти результаты позиционируют P3D-Bench как бенчмарк для оценки точной параметрической геометрии и структуры на уровне частей в параметрической 3D-генерации.

APT: предварительное обучение эксперта действий улучшает обобщение инструкций политик видения-языка-действия.
APT: Action Expert Pretraining Improves Instruction Generalization of Vision-Language-Action Policies

Jun 10

ByKechun Xu, Zhenjie Zhu, Anzhe Chen, Rong Xiong, Yue Wang

Модели «зрение-язык-действие» (VLA), объединяющие предварительно обученные модели «зрение-язык» (VLM) с экспертами непрерывных действий, демонстрируют высокую производительность в манипуляционных задачах, однако их способность к обобщению на речевые инструкции, выходящие за пределы распределения (OOD), остаётся низкой. Известной проблемой является структурный дисбаланс в данных VLA, где языковая составляющая значительно менее разнообразна по сравнению с визуальной и моторной, что приводит к склонности политик к использованию визуальных сокращений. Хотя методы дискретных действий смягчают этот дисбаланс за счёт совместного обучения зрительно-языковых моделей, эксперты непрерывных действий лишены такой защиты: они инициализируются случайным образом и обучаются исключительно на несбалансированных данных, порождая зашумлённые градиенты, которые нарушают работу VLM и не позволяют в полной мере использовать её языковые способности. Мы решаем эту проблему с байесовской точки зрения, разлагая политику на независимую от языка априорную модель «зрение-действие» (VA) и обусловленную языком апостериорную модель VLA, и предлагаем APT — двухэтапный метод обучения, акцентирующий предварительное обучение эксперта действий (Action expert PreTraining). На этапе 1 эксперт действий предварительно обучается как априорная модель VA на парах «зрение-действие» с замороженной VLM, минуя языковой дисбаланс. На этапе 2 языковые токены внедряются через управляемый механизм слияния, который интегрирует признаки VLM, сохраняя при этом изученный визомоторный априор. APT применим к основным архитектурам VLA, включая стили π и GR00T. Комплексные эксперименты подтверждают, что APT обеспечивает стабильное улучшение результатов на невидимых инструкциях и композиционных задачах. Страница проекта: https://xukechun.github.io/papers/APT/

Мировая трассировка: генеративная пиксельно-выровненная геометрия за пределами видимого
World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible

Jun 11

ByHao Zhang, Mohamed El Banani, Jen-Hao Cheng, Paul Zhang, Yi Hua, Ben Mildenhall, Christoph Lassner, Narendra Ahuja, Gengshan Yang

Методы преобразования изображений в 3D часто предполагают компромисс между точностью и полнотой: оценщики глубины привязаны к входным пикселям, но останавливаются на видимой поверхности, в то время как модели «изображение-в-3D» генерируют полные формы, которые часто не согласуются с входным изображением. Мы представляем World Tracing — генеративное геометрическое представление, согласованное с пикселями, которое предсказывает 3D-точки, выровненные по наблюдаемым пикселям, одновременно дополняя геометрию за пределами видимой поверхности. Для каждого входного пикселя World Tracing предсказывает упорядоченный стек 3D-точек в пространстве камеры, где первый слой представляет видимую поверхность, а последующие слои представляют пересечения от переднего к заднему плану с окклюдированными поверхностями. Мы реализуем это представление с помощью диффузионного трансформера World Tracing, WT-DiT, который рассматривает несколько геометрических слоев как отдельные токены шумоподавления, связанные через факторизованное и глобальное внимание. WT-DiT обучается с помощью согласования потоков в пиксельном пространстве и смешанного графика шума, который уравновешивает реконструкцию видимой поверхности и генерацию окклюдированной геометрии. World Tracing демонстрирует высокую производительность при реконструкции видимой поверхности и генерации полной геометрии на эталонных тестах объектов, сцен и динамических сценариев, превосходя как предсказатели глубины, так и генераторы «изображение-в-3D». Он также сохраняет соответствие 2D-3D, обеспечивая текстовое редактирование 3D-сцен, синтез видео с новых ракурсов на основе геометрии и интеграцию без обучения с генераторами текстурированных сеток.

AlloSpatial: Агентный фреймворк для пространственного рассуждения в фундаментальных моделях
AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models

Jun 8

ByShouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Jingzhi Li, Yubin Wang, Xingxing Wei

Мультимодальные фундаментальные модели (MFMs) достигли значительного прогресса, однако остаются неустойчивыми в пространственном рассуждении о физическом мире. Ключевое узкое место заключается в их неспособности преобразовывать локальные эгоцентрические наблюдения в глобальное аллоцентрическое пространственное представление. Для решения этой проблемы мы предлагаем AlloSpatial — агентную структуру для аллоцентрической пространственной когниции в фундаментальных моделях. AlloSpatial вводит World2Mind — подключаемую когнитивную картографическую песочницу, которая преобразует эгоцентрические наблюдения в структурированные аллоцентрические априоры, включая аллоцентрические пространственные деревья и карты маршрутов, поддерживающие запросы топологии объектов, геометрических отношений, проходимости и траекторий. Для надежного использования этих априоров в условиях зашумленной реконструкции и неоднозначных визуальных данных AlloSpatial вводит обвязку пространственного рассуждения для оценки использования инструментов, сбора подсказок с декомпозицией по модальностям и арбитража геометрии и семантики. Мы далее интернализируем этот процесс в Qwen3-VL с помощью обучения с подкреплением с холодного старта и вознаграждения на уровне траекторий, управляемого обвязкой. Эксперименты на VSI-Bench и MindCube показывают, что AlloSpatial улучшает проприетарные модели на 5%-18% в условиях без обучения, в то время как одни AST обеспечивают сильное пространственное рассуждение даже при удалении визуальных входных данных. Обученные агенты AlloSpatial дополнительно превосходят более крупные модели общего назначения и конкурентоспособные пространственные базовые линии, что указывает на то, что структурированные аллоцентрические представления, активное использование инструментов и верифицируемое рассуждение предлагают многообещающий путь к пространственно способным фундаментальным моделям.

Двухуровневая идентификация наилучшего действия для стохастического минимаксного дерева
Two-Fidelity Best-Action Identification for Stochastic Minimax Tree

Jun 1

ByPeter Chen, Xi Chen

Мы исследуем задачу идентификации наилучшего действия с фиксированной достоверностью (BAI) в стохастических минимаксных деревьях. Эта проблема приобретает все большую актуальность в современном планировании ИИ, где глубокий минимаксный поиск и поиск по дереву Монте-Карло (MCTS) с длинными роллаутами на основе языковых моделей сталкиваются с фундаментальным компромиссом: эвристические оценки дешевы, но смещены, в то время как точные роллауты надежны, но непомерно дороги. Мы предлагаем 2FFS — алгоритм поиска по дереву с двумя уровнями точности, который переносит идеи многоуровневых плоских бандитов в деревья. Алгоритм сочетает минимаксную быструю экспансию со стохастической выборкой в стиле MCTS, адаптивно решая, когда использовать дешевые смещенные оценки, а когда запускать дорогие точные оценки для локальной верификации. Мы доказываем корректность с фиксированной достоверностью, устанавливаем финитную остановку для точной идентификации и приводим полиномиальную верхнюю границу стоимости по глубине для деревьев произвольной глубины. В численных экспериментах на стохастических деревьях 2FFS требует существенно меньше выборок и вычислительных операций по сравнению с существующим базовым методом BAI-MCTS.

Быстрейшее обнаружение начала галлюцинаций: границы задержки и обученные статистики CUSUM
Quickest Detection of Hallucination Onset: Delay Bounds and Learned CUSUM Statistics

Jun 10

ByIgor Itkin

Детекторы галлюцинаций на уровне токенов оцениваются как классификаторы по AUC по всем токенам, однако стриминговый монитор оценивается по времени реакции: количеству токенов, проходящих между началом галлюцинации и сигналом тревоги. Мы формулируем обнаружение начала галлюцинации как задачу быстрейшего обнаружения изменений. Марковская модель первого порядка скрытого состояния «достоверный/галлюцинирующий», подтверждённая на наборе данных RAGTruth, помещает задачу в рамках классической теории точек изменения и даёт нижнюю границу Лордена на задержку обнаружения: около 1,3 токена при частоте ложных тревог 0,01. Затем мы показываем, что каузальный рекуррентный маркер действует как CUSUM с обученным приращением; при согласованной частоте ложных тревог он обнаруживает за 11–13 токенов, тогда как линейный поточечный базовый метод — за 31 токен, а контролируемое разложение приписывает большую часть этого преимущества лучшей оценке на токен, а не временному накоплению. Теорема оптимальности информационной скорости типа Донскера–Варадана объясняет оставшийся разрыв на порядок величины: обученная оценка реализует лишь 1/4,5 дивергенции, которую несут признаки; этот дефицит не может быть устранён повторной калибровкой, а остаток является эффектом конечного горизонта. Метрики классификации скрывают эту структуру задержки; последовательный анализ делает её измеримой.

FVSpec: тесты на основе свойств из реального мира как вызовы для Lean
FVSpec: Real-World Property-Based Tests as Lean Challenges

May 31

ByQuinn Dougherty, Max von Hippel, Hazel Shackleton, Mike Dodds

Мы представляем бенчмарк для оценки моделей и агентов ИИ на задачах формальной верификации реального программного обеспечения. Сначала мы извлекаем 11 039 тестов на основе свойств (PBT) из реальных репозиториев Python, затем автоматически переводим 2 772 из них (25%) в 9 415 спецификаций Lean 4 с заглушками sorry (около 3 формализаций на PBT; мы сохраняем несколько попыток, когда ни одна не доминирует по метрикам качества). Перевод PBT в спецификации Lean является сложной задачей: он требует моделирования семантики Python в Lean, вывода логического свойства, закодированного в императивном PBT, и преодоления неотъемлемых трудностей программирования с зависимыми типами в редко используемом языке. Мы описываем конвейер LLM с тремя агентами для транспиляции PBT в спецификации Lean, оцениваем метрики покрытия и качества, а также предоставляем базовые показатели для генерации доказательств с использованием нескольких автоматических и основанных на моделях подходов. Весь код (скрапер и агенты) и данные (PBT и спецификации Lean) являются открытыми. Наш бенчмарк направлен на стимулирование прогресса в малоизученной проблеме формальной верификации реального программного обеспечения с помощью ИИ, что вызывает растущий интерес по мере того, как ИИ производит всё больше кода в мире.

ActiveMimic: Эгоцентрическое предобучение видео с активным восприятием
ActiveMimic: Egocentric Video Pretraining with Active Perception

Jun 4

ByXingyao Lin, Guojin Zhong, Tianyi Lu, Ziyi Ye, Yichen Zhu, Zuxuan Wu, Yu-Gang Jiang

Эгоцентрическое видео человека предлагает масштабируемую альтернативу данным роботов для предварительного обучения, однако модели, предварительно обученные на таком видео, последовательно уступают моделям, предварительно обученным на данных роботов. Мы объясняем этот разрыв отсутствием сигнала – активного перцептивного поведения в эгоцентрических видео, где люди непрерывно изменяют положение точки обзора во время манипуляции, вызывая движение камеры, которое стандартные конвейеры рассматривают как шум. Для решения этой проблемы мы представляем ActiveMimic – фреймворк предварительного обучения, который восстанавливает синхронизированные траектории камеры и запястья по данным с одной носимой на теле RGB-камеры, моделирует движение камеры как действие точки обзора и совместно обучает активному восприятию и манипуляции на основе эгоцентрического видео человека в естественных условиях перед адаптацией к целевому роботу. Эмпирически, эксперименты в реальном мире на задачах с различными требованиями к активному восприятию показывают, что ActiveMimic последовательно превосходит базовые модели, предварительно обученные на видео человека, и соответствует современным моделям, предварительно обученным на данных роботов. Дальнейший анализ предоставляет доказательства того, что способность к активному восприятию возникает в результате предварительного обучения на эгоцентрическом видео человека, а не в результате тонкой настройки под конкретного робота, подтверждая, что активное восприятие является ключом к раскрытию потенциала эгоцентрического видео человека для предварительного обучения роботов.

CARVE: Сертифицированная недорогая коррекция отклоненных маневров с использованием оболочек для интерактивного вождения
CARVE: Certified Affordable Repair of Vetoed Maneuvers via Envelopes for Interactive Driving

May 31

ByYifan Wang

Интерактивное вождение выявляет режим отказа, который легко пропустить в стеках автономного вождения, учитывающих правила: жесткий запас по правилам может быть отрицательным для эго-кандидата, даже если небольшое законное приспособление со стороны неприоритетного агента восстановило бы выполнимость. Существующие регламенты, защитные механизмы и фильтры достижимости эффективно блокируют небезопасные действия, в то время как планировщики на основе прогнозирования моделируют вероятные реакции. Ни один из них не возвращает объект доказательства времени выполнения, который указывает, какое ограниченное многопользовательское изменение исправляет маневр, кому принадлежит это изменение, выполнимо ли оно с точки зрения права проезда и какой запасной вариант остается у эго-агента, если запрос не будет выполнен. Мы формулируем этот отсутствующий объект как *сертификацию интерактивного исправления* и представляем *CARVE* — свободный от прогнозирования сертификационный слой на конечной решетке тактических операторов, принадлежащих эго-агенту и агенту. Запросы, принадлежащие агенту, допустимы только внутри \(B_j(s) = β(π_j)α_j^{\max}(s)\), оболочки сотрудничества, которая отделяет кинематическую достижимость от нормативного приоритета. Полученный сертификат фиксирует связывающее правило, категорию исправления, набор исправлений, распределение затрат с учетом ответственности и запасной вариант. На 589 повторных эпизодах INTERACTION, привязанных к геометрии Lanelet2, CARVE-Greedy принимает 98,64% изначально заблокированных маневров и восстанавливает 370 из 378 ложно-положительных блокировок, разрешенных человеком, при этом сохраняя в 589 из 589 случаях уважение права проезда, нулевое количество ложных срабатываний приоритетного агента и 400 из 400 блокировок в негативных стрессовых ситуациях. Мы доказываем обоснованность сертификата, структурное уважение права проезда, точную минимальность конечной решетки, резервирование запасного варианта и условия согласованности вины. CARVE не предсказывает и не требует соблюдения правил другим водителем; он сертифицирует, является ли предлагаемое взаимодействие ограниченным, приписываемым и нормативно допустимым при объявленных предположениях.

AdaSR: Адаптивное потоковое рассуждение с иерархической относительной оптимизацией политики
AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

Jun 12

ByJunlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao, Xuan Lu, Yang Tan, Xiaoyu Shen

Крупные модели рассуждений обычно следуют парадигме «сначала чтение, затем размышление»: они наблюдают полный входной сигнал, рассуждают над статическим контекстом и затем выдают ответ. Однако многие реальные сценарии по своей природе являются динамическими, например, аудио- и видеопотоки, где информация поступает в виде непрерывного потока, и модели должны рассуждать, обновлять свои знания и отвечать в условиях частичных наблюдений. Недавние методы потокового рассуждения позволяют моделям размышлять во время чтения, но в значительной степени полагаются на контролируемую имитацию заранее построенных траекторий, что ограничивает их гибкость. В данной статье мы предлагаем AdaSR — адаптивную фреймворку для потокового рассуждения, которая позволяет моделям рассуждать во время поступления входного потока и выполнять окончательное обдумывание после завершения потока, обучаясь тому, когда думать и какой объём вычислений выделять на различных этапах. Для оптимизации этого иерархического процесса рассуждения мы вводим Иерархическую относительную оптимизацию политики (Hierarchical Relative Policy Optimization, HRPO), которая разбивает оптимизацию политики на фазы потокового и глубокого рассуждения, обеспечивая более детальное назначение преимуществ вместо равномерного распределения единого преимущества на уровне последовательности по всем токенам. HRPO объединяет вознаграждения за формат, точность и адаптивное мышление для соблюдения корректных протоколов рассуждения, сохранения конечной производительности по задаче и стимулирования распределения вычислений с учётом задержки. Эксперименты показывают, что AdaSR достигает лучшего баланса между точностью рассуждений, вычислительной эффективностью и задержкой потока по сравнению с базовым методом контролируемой донастройки. Мы публикуем наш код по адресу: https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.

Сжатие-Освобождение: Итеративное прореживание с точной структурной минимизацией
Squeeze-Release: Iterative Pruning with Exact Structural Minimization

Jun 12

ByRoman Denkin, Ida Akerholm, Prashant Singh, Ida-Maria Sintorn

Неструктурированная обрезка порождает разреженные тензоры весов, но стандартная реализация сохраняет размерности тензоров неизменными, поэтому развёрнутая модель не становится меньше, чем до обрезки. Мы предлагаем точную структурную перезапись, называемую минимизацией, которая преобразует маскированную сеть в более компактную плотную сеть, сохраняющую ту же прямую функцию с точностью до округления с плавающей точкой. Цикл «сжатие-освобождение» итеративно повторяет процедуры обрезки и минимизации с промежуточным шагом освобождения, который включает в себя повторное включение точных нулевых позиций внутри уплотнённых тензоров в виде малого калиброванного шума, превращая в противном случае бесполезную ёмкость обратно в обучаемые параметры. Последовательные циклы используют эту ёмкость для обнаружения структурной избыточности, недоступной при однократном проходе. Мы также вводим CompensatedLayerNorm — функционально сохраняющую замену для LayerNorm, которая расширяет минимизацию на сокращение каналов в остаточных потоках с LayerNorm. Сжатие-освобождение уменьшает развёртываемую сеть в 39 раз по сравнению с необрезанной моделью для полносвязной сети и в 14,8 раза для современной CNN (ConvNeXt-Tiny) при сравнимой точности. Кроме того, мы доказываем, что перезапись может быть расширена на архитектуры трансформеров.

WaveDiT: Распределенно-осознанное согласование вейвлет-потоков для эффективного синтеза 3D МРТ головного мозга
WaveDiT: Distribution-Aware Wavelet Flow Matching for Efficient 3D Brain MRI Synthesis

Jun 7

ByDanilo Danese, Angela Lombardi, Giuseppe Fasano, Matteo Attimonelli, Tommaso Di Noia

Большие и демографически сбалансированные наборы данных необходимы для надежных биомаркеров нейровизуализации. Синтез полномасштабных 3D МРТ-изображений головного мозга может поддерживать аугментацию данных в этом контексте, но существующие подходы либо требуют непомерных вычислительных затрат при объемном масштабировании, либо полагаются на сжатие с потерями в латентном пространстве, что может ухудшить анатомические детали. В результате практическая генеративная аугментация 3D-данных часто требует специализированной вычислительной инфраструктуры. Мы предлагаем WaveDiT — фреймворк условного согласования потоков, работающий в пространстве коэффициентов трехмерного дискретного вейвлет-преобразования Хаара. Модель сочетает факторизованное пространственно-глубинное внимание с гетероскедастическим моделированием неопределенности по полосам, основанным на статистиках вейвлетов высших порядков. Предсказанная лог-дисперсия интегрируется непосредственно как в целевую функцию потока, так и в путь обусловливания, обеспечивая адаптивную точность, согласующуюся с тяжелохвостой и зависящей от входных данных структурой дисперсии анатомических деталей. Такая формулировка поддерживает полномасштабный 3D-синтез при практических ограничениях по памяти и времени на одном современном GPU. Оценка на многоплощадочной когорте демонстрирует улучшенное выравнивание между сгенерированными и реальными распределениями МРТ, а также улучшенное последующее предсказание возраста мозга и региональное анатомическое согласие по сравнению с базовыми подходами на основе диффузии, латентных представлений и вейвлетов. Код доступен по адресу https://github.com/sisinflab/WaveDiT.

Статистически надежная оценка ранжирования на основе LLM посредством прогностически усиленного вывода
Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference

Jun 3

ByAbhishek Divekar

С помощью PRECISE мы расширили метод Prediction-Powered Inference (вывод с поддержкой предсказаний) для получения скорректированных по смещению оценок метрик ранжирования путем объединения небольшого набора с разметкой от людей и большого набора, оценённого большой языковой моделью (LLM). Метод PPI является доказуемо несмещённым независимо от профиля ошибок LLM-судьи. Мы делаем его применимым к иерархическим метрикам, таким как Precision@K, где аннотации присваиваются на уровне документов, а сама метрика вычисляется на уровне запросов, за счёт сокращения вычислений в пространстве выходных данных с O(2^|C|) до O(2^K). На эталонном наборе ESCI дополнение 30 человеческих аннотаций оценками Claude 3 Sonnet снижает стандартную ошибку оценок Precision@4 с 4,45 до 3,50 (относительное снижение на 21%). В продуктовой системе наша схема правильно определила лучший из трёх вариантов системы на основе 100 меток от людей и 2 часов аннотирования экспертами предметной области; A/B-тестирование подтвердило это ранжирование с приростом ежедневных продаж на 407 базисных пунктов.