HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

32 papers found

Готовы ли мы к агентно-нативной системе памяти?
Are We Ready For An Agent-Native Memory System?

Jun 23

ByWei Zhou, Xuanhe Zhou, Shaokun Han, Hongming Xu, Guoliang Li, Zhiyu Li, Feiyu Xiong, Fan Wu

Память для агентов на основе больших языковых моделей (LLM) быстро эволюционировала от простых механизмов дополнения извлечением (retrieval-augmented) к системе управления данными, поддерживающей постоянное хранение, извлечение, обновление, консолидацию и динамическое управление жизненным циклом информации на протяжении выполнения агентом своих задач. Несмотря на эту эволюцию, существующие оценки по-прежнему оценивают память агентов в основном с помощью сквозных метрик успешности выполнения задач (например, F1, BLEU), рассматривая при этом лежащую в основе систему как монолитный черный ящик. В результате критические аспекты на системном уровне, включая эксплуатационные затраты, архитектурные компромиссы между модулями памяти и устойчивость к динамическим обновлениям знаний, остаются недостаточно изученными. В данной статье мы представляем систематическое экспериментальное исследование памяти агентов с точки зрения управления данными. Мы предлагаем аналитическую структуру, которая разлагает память агента на четыре основных модуля: представление и хранение памяти, извлечение, поиск и маршрутизация, а также обслуживание. В рамках этой структуры мы оцениваем 12 репрезентативных систем памяти и два эталонных базовых решения на пяти эталонных наборах рабочих нагрузок, охватывающих 11 наборов данных. Наш обширный сквозной анализ показывает, что ни одна отдельная архитектура не является доминирующей во всех сценариях; напротив, эффективность сильно зависит от того, насколько структура памяти согласуется с узким местом рабочей нагрузки. Кроме того, благодаря тонко настроенным абляционным исследованиям мы количественно оцениваем их отдельные эффекты на верность представления, точность поиска, корректность обновления и долгосрочную устойчивость. Наконец, мы выявляем компромиссы между стоимостью и производительностью в реалистичных условиях, показывая, что локализованное обслуживание более экономически эффективно, чем глобальная реорганизация. Основываясь на этих результатах, мы определяем многообещающие направления для создания по-настоящему нативных систем памяти для агентов. Код доступен по адресу https://github.com/OpenDataBox/MemoryData.

DomainShuttle: Свободная генерация видео из текста в открытой предметной области на основе заданного объекта
DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation

Jun 24

ByNan Chen, Yiyang Cai, Rongchang Xie, Junwen Pan, Cheng Chen, Weinan Jia, Zhuowei Chen, Wen Zhou, Zhenbang Sun, Wenhan Luo

Открытая предметно-ориентированная генерация видео по тексту (S2V) вызывает значительный интерес как в академических кругах, так и в промышленности. Открытая S2V включает два основных сценария: внутридоменный, который требует максимального сохранения признаков эталонного объекта, и кросс-доменный, который сохраняет внутренние признаки объекта, позволяя несущественным для объекта свойствам гибко изменяться в соответствии с текстовой подсказкой. Существующие методы в основном фокусируются на максимизации верности объекту во внутридоменных сценариях, что ограничивает их редактируемость и адаптируемость в кросс-доменных сценариях, таких как новые стили, семантические комбинации или атрибуты домена. В данном исследовании мы утверждаем, что идеальный метод S2V должен гибко перемещаться между различными доменами, обеспечивая высокую производительность как во внутридоменных, так и в кросс-доменных сценариях. С этой целью мы предлагаем DomainShuttle, который позволяет достичь высокой точности воспроизведения объекта и генеративной гибкости для персонализации видео в открытом домене. В частности, мы вводим Domain-MoT, который разделяет видео и эталонные признаки, а также использует доменно-осведомленный AdaLN для доменно-специфичного моделирования эталонных изображений. Далее мы представляем схему Video-Reference DualRoPE, которая помещает токены эталонного изображения и токены видео в отдельные пространства RoPE для точного пространственного моделирования на уровне объекта, а также кросс-парную функцию потерь (Cross-Pair Consistent Loss), направленную на извлечение внутренних признаков объекта, не подверженных влиянию посторонних признаков. Обширные эксперименты показывают, что DomainShuttle достигает значительного улучшения производительности по сравнению с существующими методами, демонстрируя высокую верность объекту и генеративную гибкость в различных прикладных сценариях открытого домена.

Wan-Streamer v0.1: Сквозные интерактивные фундаментальные модели реального времени
Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

Jun 23

ByLianghua Huang, Zhifan Wu, Wei Wang, Yupeng Shi, Mengyang Feng, Junjie He, Chenwei Xie, Yu Liu, Jingren Zhou, Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng, Zoubin Bi

Мы представляем Wan-Streamer — нативно-потоковую, сквозную интерактивную фундаментальную модель, изначально разработанную для полноценного аудиовизуального взаимодействия в реальном времени с низкой задержкой. Wan-Streamer бесшовно моделирует язык, аудио и видео как на входе, так и на выходе в рамках единого Transformer, где последовательность представлена перемежающимися токенами визуального, аудио- и текстового ввода вместе с токенами визуального, аудио- и текстового вывода, координируемыми блочно-причинным вниманием для инкрементальной передачи. В отличие от каскадных интерактивных систем, основанных на отдельных модулях VAD, ASR, языка, TTS, управляемого аудио анимации или генерации видео, Wan-Streamer не полагается на внешние модули языка, речи, аватара или генерации видео: восприятие, рассуждение, генерация, синхронизация времени ответа, управление очередностью реплик и кросс-модальная синхронизация обучаются совместно в рамках единой модели, снижая конвейерную задержку и накопление ошибок. Для обеспечения естественной аудиовизуальной отзывчивости мы переработали весь стек с учётом потоковой передачи, включая каузальные кодеры, каузальные декодеры, блочно-причинное внимание и низколатентное планирование мультимодальных токенов, что позволяет использовать потоковые блоки длительностью всего 160 мс при частоте 25 кадров/с. Wan-Streamer достигает примерно 200 мс задержки на стороне модели и примерно 550 мс общей задержки взаимодействия при комбинации с 350 мс двунаправленной сетевой задержкой, поддерживая дуплексную аудиовизуальную связь с задержкой менее одной секунды. Эти результаты позиционируют Wan-Streamer как единую сквозную мультимодальную интерактивную фундаментальную модель для низколатентного потокового взаимодействия.

ShutterMuse: Руководство по фотосъемке в момент съемки с помощью MLLM
ShutterMuse: Capture-Time Photography Guidance with MLLMs

Jun 24

ByJiayu Li, Yixiao Fang, Tianyu Hu, Wei Cheng, Ping Huang, Zheheng Fan, Gang Yu, Xingjun Ma

Реальная фотография требует руководства в момент съемки как по кадрированию камеры, так и по позе объекта. Однако существующие эстетические бенчмарки кадрирования в основном оценивают постфактумное предсказание кадрирования и упускают рекомендации для объекта, оставляя возможности мультимодальных больших языковых моделей (МБЯМ) по предоставлению руководства в момент съемки недостаточно исследованными. Для устранения этого пробела мы представляем CaptureGuide-Bench — бенчмарк с двумя взаимодополняющими задачами: принятие решений и уточнение композиции со стороны фотографа, а также рекомендация позы объекта с учетом сцены со стороны самого объекта. Наша оценка выявляет ограничения: МБЯМ общего назначения могут принимать композиционные решения, но им не хватает точной локализации уточнений, в то время как специализированные модели эстетического кадрирования эффективно локализуют кадры, но ограничены уточнением; ни одна из них не предоставляет практических указаний по позе. Для поддержки разработки моделей мы дополнительно создаем CaptureGuide-Dataset, содержащий 130 тысяч образцов с текстовыми обоснованиями и структурированными визуальными аннотациями, и разрабатываем ShutterMuse — единую МБЯМ, обученную с помощью контролируемой донастройки и донастройки с подкреплением. Эксперименты на CaptureGuide-Bench показывают, что ShutterMuse достигает наилучшей общей производительности со стороны фотографа среди оцененных базовых линий и конкурентоспособной рекомендации позы объекта при существенно меньших вычислительных затратах на вывод, демонстрируя потенциал МБЯМ в качестве интерактивных помощников в фотографии во время захвата изображения.

Улучшенные большие языковые диффузионные модели
Improved Large Language Diffusion Models

Jun 24

ByShen Nie, Qiyang Min, Shaoxuan Xu, Zihao Huang, Yuxuan Song, Yong Shan, Yankai Lin, Wayne Xin Zhao, Chongxuan Li, Ji-Rong Wen

Современные крупные языковые модели в основном обучаются с использованием авторегрессионной факторизации и каузального внимания. Мы представляем iLLaDA — 8-миллиардную маскированную диффузионную языковую модель, обученную с нуля с полностью двунаправленным вниманием. iLLaDA сохраняет маскированную диффузионную целевую функцию на протяжении предварительного обучения и контролируемой донастройки (SFT), масштабируя предварительное обучение до 12 триллионов токенов и донастройку на наборе инструкций объемом 25 миллиардов токенов в течение 12 эпох. Для повышения эффективности мы используем генерацию с переменной длиной и вводим оценку на основе уверенности для задач с множественным выбором. По сравнению с LLaDA, iLLaDA демонстрирует значительное улучшение по широкому спектру бенчмарков, включая общие, математические и задачи по программированию; например, iLLaDA-Base показывает прирост на 21,6 пункта в BBH и на 14,9 пункта в ARC-Challenge, тогда как iLLaDA-Instruct улучшает результаты на 14,5 пункта в MATH и на 16,5 пункта в HumanEval. Несмотря на неавторегрессионное обучение, iLLaDA также остается конкурентоспособной с Qwen2.5 7B на нескольких бенчмарках. Эти результаты показывают, что полностью двунаправленное диффузионное обучение с нуля является конкурентоспособным путем к созданию сильных языковых моделей. Веса модели и код: https://github.com/ML-GSAI/LLaDA.

Помимо NL2Code: Структурированный обзор мультимодального интеллекта кода
Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence

Jun 16

ByXuanle Zhao, Qiushi Sun, Jingyu Xiao, Xuexin Liu, Haoyue Yang, Qiaosheng Chen, Xianzhen Luo, Jing Huang, Yufeng Zhong, Lei Chen, Shuai Fu, Zhenlin Wei, Jinhe Bi, Lei Jiang, Haibo Qiu, Siqi Yang, Peng Shi, Jian Hu, Zhixiong Zeng

Хотя большие языковые модели (LLM) существенно продвинули синтез кода из текста, многие реальные задачи программирования задают намерение через визуальные артефакты, такие как скриншоты, диаграммы, векторные рисунки, видео и интерактивные состояния. Эти задачи требуют от моделей связывания визуального восприятия с исполняемыми программами, поскольку корректность зависит не только от синтаксиса, но и от компоновки, семантики данных, интеракционного поведения и предметно-ориентированных ограничений, действующих после выполнения. В данном обзоре рассматривается мультимодальный код-интеллект (Multimodal Code Intelligence), охватывающий системы, которые генерируют, редактируют, уточняют или анализируют код в условиях визуально обоснованных входов и выходов. Мы сначала формулируем область на основе роли, которую код выполняет в каждой задаче, различая код как визуализируемый артефакт, редактируемую символьную структуру, научное представление, промежуточный след рассуждений или исполняемую политику/интерфейс инструмента. Затем мы организуем эталонные тесты и методы в четыре домена: графический пользовательский интерфейс, научная визуализация, структурированная графика, а также пограничные задачи и фреймворки. Эта таксономия соединяет зрелые задачи генерации артефактов с возникающими агентными и унифицированными подходами и позволяет нам сравнить, как разные задачи обрабатывают доказательства корректности. Заглядывая вперёд, мы утверждаем, что будущие исследования могут выиграть от четырёх направлений, ориентированных на верификацию. Многосигнальная валидация может объединять взаимодополняющие доказательства корректности; многовекторная (многосостояний) верификация может тестировать поведение на различных траекториях выполнения; межзадачное тестирование переноса может исследовать повторно используемые навыки визуального кода; а верифицируемые следы агента могут показать, обоснованы ли действия агента визуальными данными. Вместе эти направления могут переместить эту область от имитации одиночного вывода к исполняемым системам, обоснованным фактическими данными. Текущий проект и ресурсы доступны на https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code{GitHub}.

MVTrack4Gen: Многовидовое отслеживание точек в качестве геометрической супервизии для генерации 4D-видео
MVTrack4Gen: Multi-View Point Tracking as Geometric Supervision for 4D Video Generation

Jun 24

ByJoungBin Lee, Jaewoo Jung, Jongmin Lee, Tongmin Kim, Hyunsung Kim, Takuya Narihira, Kazumi Fukuda, Jahyeok Koo, Jisang Han, Yuki Mitsufuji, Seungryong Kim

Синтезирование видео с нового ракурса из монокулярного эталонного видео вдоль целевой траектории камеры требует как геометрической согласованности, так и верности движения по отношению к эталонному видео. Существующие методы, основанные на явных 3D-представлениях, ограничены точностью готовых модулей реконструкции, которые часто дают неточную геометрию для динамических объектов в монокулярных видео. В отличие от этого, методы, основанные только на условиях камеры, могут достигать высокого визуального качества, но часто испытывают трудности с сохранением геометрической и кинематической согласованности. В данной работе мы представляем MVTrack4Gen (многовидовое отслеживание точек для генерации с нового ракурса) — обучающую структуру, учитывающую движение, которая использует многовидовое отслеживание точек в качестве дополнительного сигнала для контроля геометрии и движения в диффузионных моделях видео с нового ракурса, основанных только на условиях камеры. Наш ключевой вывод заключается в том, что определенные слои внимания кодируют сильные подсказки соответствия, где признаки запроса обращаются к ключевым признакам в геометрически соответствующих локациях в разных ракурсах и во времени, и рассогласование этих соответствий приводит к несоответствию движения. Основываясь на этом наблюдении, мы направляем эти признаки во вспомогательную головку многовидового отслеживания и совместно обучаем диффузионную модель с целью отслеживания точек. Явно усиливая эти чувствительные к движению соответствия, MVTrack4Gen улучшает существующие модели, позволяя им лучше следовать движению в эталонном ракурсе и поддерживать межракурсную геометрическую согласованность. На различных эталонах наш метод достигает передовой геометрической согласованности и конкурентоспособной точности камеры.

V-Zero: Безметочная дистилляция по текущей политике с контрастивным стробированием свидетельств для мелкозернистого визуального рассуждения
V-Zero: Answer-Label-Free On-Policy Distillation with Contrastive Evidence Gating for Fine-Grained Visual Reasoning

Jun 24

ByHaoxiang Sun, Zhihang Yi, Langxuan Deng, Yuhao Zhou, Peiqi Jia, Jian Zhao, Li Yuan, Jiancheng Lv, Tao Wang

Тонкозернистое визуальное рассуждение требует от мультимодальных больших языковых моделей (MLLM) выявления релевантных задаче визуальных свидетельств и обоснования своих рассуждений на основе локальных областей изображения. Существующие агентные методы обычно полагаются на обучение с подкреплением с проверяемыми наградами или контролируемую донастройку на крупномасштабных аннотированных трассах рассуждений, что приводит к дорогостоящему исследованию, созданным вручную правилам проверки или сильной зависимости от текстового контроля. Естественный способ избежать таких внешних меток ответов — это обучение на траекториях, сэмплированных самим студентом, что указывает на внутриполитическую дистилляцию (OPD). Чтобы понять, что OPD может и не может дать для визуального рассуждения, мы пересматриваем его как отрицательно-свободное выравнивание с остановкой градиента. Эта перспектива показывает, что, хотя OPD обеспечивает эффективную коррекцию на уровне токенов, его потолок ограничен отсутствием дискриминации на уровне траекторий. Основываясь на этих наблюдениях, мы предлагаем V-Zero — фреймворк без меток ответов для визуального рассуждения с контрастивным стробированием свидетельств. V-Zero не использует аннотированные текстовые метки ответов; вместо этого во время обучения он сопоставляет региональный кроп, релевантный вопросу, с отрицательным визуальным видом для оценки сэмплированных студентом траекторий и стробирования плотной дистилляции на уровне токенов. Эксперименты на нескольких эталонных тестах визуального рассуждения показывают, что V-Zero последовательно улучшает тонкозернистое визуальное рассуждение, сохраняя при этом сильное обобщение. Примечательно, что V-Zero более чем в 5 раз быстрее предыдущих методов контролируемой донастройки и более чем в 10 раз быстрее базовых методов обучения с подкреплением. Код и набор данных будут опубликованы по адресу https://github.com/eVI-group-SCU/V-Zero.

UnityShots: управляемая памятью многоэпизодная генерация аудио и видео с гейтингом, учитывающим границы
UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating

Jun 19

ByJiehui Huang, Yuechen Zhang, Bin Xia, Jiahao Wang, Xu He, Zhenchao Tang, Meng Chu, Xin Tao, Pengfei Wan, Jiaya Jia

Генерация связного мультикадрового видео требует структурированной кросс-кадровой памяти. Внешний вид объекта, контекст сцены и идентичность говорящего должны сохраняться при монтажных переходах. Существующие подходы либо обучаются сквозным образом на последовательностях фиксированной длины и не масштабируются, либо генерируют кадр за кадром с использованием банков памяти, линейно растущих в объёме, либо координируют предварительно обученные генераторы под управлением LLM-планировщика без учёта многокадровых зависимостей на уровне базовой модели. Мы представляем UnityShots — систему многокадровой аудио-видео генерации, управляемую памятью, построенную на основе LTX-2.3 и обученную на размеченных кадрах из кино и музыкальных клипов. Видеопоток поддерживает два фиксированных по размеру слота: слот долговременной памяти (LTM), привязанный к начальному кадру, и слот кратковременной памяти (STM), хранящий непосредственно предшествующий хвост. Оба слота обновляются на каждом монтажном переходе с помощью гранично-условного вентиля, объединяющего вероятность визуального разреза и сигналы бит-трекера. Аудиопоток вводит референсный токен диктора в каждом кадре для сохранения тембра голоса без использования скользящего аудиобанка. Дискретный априорный тип монтажного перехода, обученный через AdaLN, становится контрольным параметром на этапе инференса, регулирующим силу переходов. Мы выпускаем бенчмарк из 200 мультикультурных мультикадровых последовательностей, охватывающих шесть этнических регионов и десять и более языков, с указанием идентичности референсных персонажей для каждого кадра, референсного аудио и меток переходов на каждой границе. При оценке в режимах I2V, T2V и R2V UnityShots превосходит открытые базовые модели по всем метрикам кросс-кадровой согласованности и достигает уровня сильнейшей закрытой системы по многокадровым показателям.

Causal-rCM: Единый открытый рецепт принуждения учителем и самопринуждения для авторегрессионной диффузионной дистилляции в генерации потокового видео и интерактивных мировых моделях
Causal-rCM: A Unified Teacher-Forcing and Self-Forcing Open Recipe for Autoregressive Diffusion Distillation in Streaming Video Generation and Interactive World Models

Jun 24

ByKaiwen Zheng, Guande He, Min Zhao, Jintao Zhang, Huayu Chen, Jianfei Chen, Chen-Hsuan Lin, Ming-Yu Liu, Jun Zhu, Qianli Ma

Авторегрессионная видеодиффузия с каузальными диффузионными трансформерами стала важной парадигмой для генерации потокового видео в реальном времени и интерактивных мировых моделей, обусловленных действиями. В данной работе мы расширяем rCM, передовую основу для дистилляции диффузии, на авторегрессионную видеодиффузию. Основная философия rCM заключается в дополнительности прямых и обратных расхождений, представленных соответственно моделями согласованности (CM) и дистилляцией согласования распределений (DMD) в дистилляции диффузии. Эта философия естественным образом переносится на авторегрессионную постановку, где teacher-forcing (TF) обеспечивает автономную каузальную парадигму обучения с прямым расхождением, в то время как self-forcing (SF) соответствует уточнению с обратным расхождением, основанному на текущей политике. Наши вклады заключаются в следующем: (1) посредством обширных экспериментов мы показываем, что teacher-forcing CM в настоящее время является наилучшим дополнением к self-forcing DMD в качестве стратегии инициализации; (2) мы представляем первую реализацию teacher-forcing-based непрерывных по времени CM (например, sCM/MeanFlow) для авторегрессионной видеодиффузии, ставшую возможной благодаря нашему пользовательскому маскированному ядру FlashAttention-2 JVP, обеспечивающему в 10 раз более быструю сходимость по сравнению с дискретными по времени CM (dCM); (3) мы представляем Causal-rCM — ведущий, унифицированный и масштабируемый открытый рецепт алгоритма и инфраструктуры для дистилляции диффузии и каузального обучения; (4) мы достигаем самых современных результатов в генерации потокового видео как в покадровом, так и в поблочном режимах, используя для обучения только синтетические данные. Примечательно, что наша дистиллированная 2-шаговая каузальная модель Wan2.1-1.3B достигает оценки VBench-T2V 84,63 всего за 1 или 2 шага сэмплирования. Мы также применяем Causal-rCM к Cosmos 3 — передовой омнимодальной мировой фундаментальной модели для физического ИИ с возможностью генерации, обусловленной действиями, что позволяет создать интерактивную мировую модель.

IV-CoT: Неявная визуальная цепочка рассуждений для генерации изображений по тексту с учетом структуры
IV-CoT: Implicit Visual Chain-of-Thought for Structure-Aware Text-to-Image Generation

Jun 23

ByZixuan Li, Haokun Lin, Yicheng Xiao, Zhiwei Li, Xinyang Song, Zelong Zheng, Yong He, Heng Yao, Ke Ding, Chao Yu, Chuan Yuan, Qi Li, Zhenan Sun

Унифицированные мультимодальные большие языковые модели (МБЯМ) достигли высокого качества генерации изображений по тексту, но всё ещё испытывают трудности с структурно-осознанным следованием подсказкам, когда необходимо сохранять количество объектов, пространственные отношения, привязки атрибутов и грубые макеты. Мы связываем это ограничение отчасти с переплетением структурного планирования и рендеринга внешнего вида в рамках единого потока обусловливания. Для решения этой проблемы мы предлагаем Implicit Visual Chain-of-Thought (IV-CoT) — фреймворк латентных визуальных рассуждений для генерации изображений, обусловленной запросами. IV-CoT декомпозирует визуальные запросы обусловливания в каскад от структурного к семантическому, где структурные запросы сначала формируют латентный визуальный план, а семантические запросы затем рендерят внешний вид, обусловленный этим планом. Для управления структурными запросами мы вводим надзор на основе набросков, применяемый только на этапе обучения, который побуждает их извлекать структуру из набросков без необходимости извлечения набросков или промежуточного декодирования на этапе вывода. IV-CoT выполняет неявные рассуждения по цепочке мыслей за один прямой проход и достигает превосходных результатов на GenEval и T2I-CompBench. Визуализации и анализ показывают, что обученные структурные и семантические запросы играют взаимодополняющие роли в генерации, учитывающей структуру.

EBench: Элементарная диагностика универсальных политик мобильного манипулирования
EBench: Elemental Diagnosis of Generalist Mobile Manipulation Policies

Jun 20

ByNing Gao, Jinliang Zheng, Xing Gao, Haoxiang Ma, Hanqing Wang, Yukai Wang, Jiantong Chen, Zanxin Chen, Shujie Zhang, Mingda Jia, Xuekun Jiang, Zihou Zhu, Xinyu Li, Shuai Wang, Hao Li, Wenzhe Cai, Yuqiang Yang, Xudong Xu, Zhaoyang Lyu, Yao Mu, Tai Wang, Jiangmiao Pang, Jia Zeng, Weinan Zhang, Chunhua Shen

Мы представляем EBench — симуляционный эталонный тест, предназначенный для диагностики общих политик мобильных манипуляций, выходящей за рамки единого скалярного показателя успешности. EBench включает 26 разнообразных и сложных задач манипуляции, аннотированных по 5 измерениям способностей и 4 измерениям обобщения. Мы оцениваем современные общие модели манипуляций, включая π_0, π_{0.5}, XVLA и InternVLA-A1, и выявляем, что модели с близкими показателями успешности демонстрируют разительно разные профили способностей: π_{0.5} достигает наивысшего показателя успешности на тесте и наилучшего сохранения обучение-тест, тогда как InternVLA-A1 доминирует в мобильной манипуляции, но терпит крах на ловких задачах, а XVLA проявляет сильные стороны на разрозненном наборе атомарных навыков по сравнению с другими политиками. Помимо профилирования способностей, EBench анализирует способность к обобщению с 4 репрезентативных точек зрения, выявляя влияние различных факторов смещения распределения. Результаты раскрывают сильные и слабые стороны моделей, скрытые за общим показателем. Мы надеемся, что этот эталонный тест предоставит широкий набор диагностических сигналов для направления итераций по общим моделям манипуляций.

Путеводитель автостопщика по агентному ИИ: от основ к системам
The Hitchhiker's Guide to Agentic AI: From Foundations to Systems

Jun 22

ByHaggai Roitman

«Путеводитель автостопщика по агентному ИИ» — это всестороннее практическое руководство по созданию автономных систем искусственного интеллекта. Книга охватывает полный стек — от первых принципов до развертывания в производственной среде, и построена вокруг центрального тезиса: для создания качественных агентных систем необходимо понимать каждый уровень пайплайна, а не только один. Книга начинается с уровня LLM-основы — архитектуры трансформеров, систем GPU, обучения и тонкой настройки (SFT, LoRA, MoE), сжатия моделей и оптимизации инференса, — которые рассматриваются как необходимый фундамент, но не основной фокус. Затем развивается уровень согласования и рассуждений: обучение с подкреплением на основе обратной связи от человека (RLHF), PPO, DPO и его варианты, GRPO, моделирование вознаграждений и RL для больших моделей рассуждений, включая цепочку мыслей и масштабирование на этапе тестирования. Вторая половина посвящена непосредственно агентному ИИ. Рассмотрены такие темы, как агентное обучение и траекторный RL, генерация с дополнением по извлечению (RAG и Agentic RAG), системы памяти (контекстная, внешняя, эпизодическая и семантическая), проектирование обвязки агента и управление контекстом, а также таксономия шаблонов проектирования агентов. Вопросы координации между агентами освещены глубоко: протокол контекста модели (MCP), навыки агентов и использование инструментов, протокол связи «агент-агенту» (A2A) и мультиагентные архитектуры, охватывающие централизованные, децентрализованные и иерархические топологии. Книга завершается фреймворками для разработки агентов, проектированием агентных пользовательских интерфейсов, методологией оценки для агентных задач и развертыванием в производственной среде. Каждая глава сочетает строгие теоретические основы с рекомендациями по реализации, примерами кода и ссылками на первоисточники.

Смотри легко, думай глубоко: что может и не может мультимодальное цепочечное рассуждение
Look Light, Think Heavy: What Multimodal Chain-of-Thought Reasoning Can and Cannot Do

Jun 21

ByZhuoran Jin, Kejian Zhu, Hongbang Yuan, Yupu Hao, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

Цепочка мыслей (Chain-of-Thought, CoT) стала стандартным методом повышения способности к рассуждению в больших языковых моделях (LLM) за счёт пошагового мышления, однако её эффективность в мультимодальных задачах остаётся неясной. В данной работе мы стремимся систематически исследовать ключевой вопрос: на что способно мультимодальное рассуждение на основе цепочки мыслей, где и почему оно оказывается несостоятельным? С этой целью мы оцениваем 12 мультимодальных задач из категорий восприятия и рассуждения, используя 14 моделей без рассуждения и 8 моделей с рассуждением. Наш анализ выявляет несколько важных результатов: (1) CoT не является бесплатным решением и должен применяться выборочно, в зависимости от конкретных требований каждой задачи. Для задач восприятия CoT может приводить к нежелательным побочным эффектам, таким как снижение производительности в визуальном привязывании и подсчёте объектов. Напротив, он оказывается эффективным для задач рассуждения, включающих математические, научные и мультиизображенческие рассуждения; (2) По сравнению с исходными моделями, существующие открытые мультимодальные модели рассуждения часто дают лишь незначительные общие улучшения, возможно, из-за чрезмерного акцента на математических рассуждениях в ущерб более широким способностям; (3) Визуальное рассуждение остаётся ключевым узким местом для современного мультимодального CoT, поскольку модели демонстрируют паттерн «светлый взгляд, тяжёлая мысль», где вербальная рефлексия то возрастает, то спадает в ходе рассуждения, в то время как визуальная рефлексия последовательно ослабевает. Эти результаты указывают на то, что, хотя мультимодальный CoT относительно хорошо справляется с вербальной рефлексией, ему не хватает способности поддерживать глубокую визуальную интроспекцию на протяжении всего процесса рассуждения.

Autodata: Агентный дата-сайентист для создания высококачественных синтетических данных
Autodata: An agentic data scientist to create high quality synthetic data

Jun 24

ByIlia Kulikov, Chenxi Whitehouse, Tianhao Wu, Yixin Nie, Swarnadeep Saha, Eryk Helenowski, Weizhe Yuan, Olga Golovneva, Jack Lanchantin, Yoram Bachrach, Jakob Foerster, Xian Li, Han Fang, Sainbayar Sukhbaatar, Jason Weston

Мы представляем Autodata — общий метод, позволяющий ИИ-агентам выступать в роли специалистов по данным, создающих высококачественные обучающие и оценочные наборы данных. Мы показываем, как обучить (мета-оптимизировать) такого агента-специалиста по данным, чтобы он научился генерировать ещё более качественные данные. Описывается общая формулировка метода и его практическая реализация — Agentic Self-Instruct. Мы проводим эксперименты на задачах из области компьютерных наук, задачах юридического мышления и рассуждений с математическими объектами, где получаем улучшенные результаты по сравнению с классическими методами создания синтетических наборов данных. Более того, мета-оптимизация самого агента-специалиста по данным обеспечивает ещё более значительный прирост производительности. Агентное создание данных предоставляет способ преобразовать увеличение вычислительных ресурсов инференса в более высокое качество обучения модели. В целом, мы полагаем, что данное направление способно изменить подход к построению данных для ИИ.

TryOnCrafter: Раскрытие траекторий камеры для реалистичной видео-виртуальной примерки через рендерируемый 4D прокси-объект для примерки
TryOnCrafter: Unleashing Camera Trajectories for Realistic Video Virtual Try-on via a Renderable 4D Try-on Proxy

Jun 24

ByHao Sun, Hao Yan, Mengting Chen, Quanjian Song, Yu Li, Juan Cao, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Sheng Tang

Хотя виртуальная примерка видео (Video Virtual Try-on, VVT) достигла значительных успехов в синтезе реалистичных наложений одежды на динамических субъектах, существующие парадигмы по-прежнему принципиально ограничены пассивной зависимостью от исходных траекторий камеры, не обеспечивая необходимой интерактивной свободы для исследования всесторонних ракурсов. Для преодоления этого ограничения мы определяем новаторскую исследовательскую границу: управляемая камерой виртуальная примерка видео (Camera-controllable Video Virtual Try-on, CaM-VVT). В отличие от обычной VVT, CaM-VVT требует не только не зависящей от ракурса текстурной галлюцинации, но и строгой структурной синхронизации между нежесткой динамикой человека и фоновым контекстом при произвольных, неограниченных движениях камеры. Для решения этих задач мы представляем TryOnCrafter — первый унифицированный фреймворк на основе DiT, специально разработанный для задачи CaM-VVT. Отходя от неявных манипуляций в пиксельном пространстве, мы вводим Renderable 4D Try-on Proxy, который явно отделяет субъект-человека от окружения. Это достигается путем дистилляции априорных знаний высококачественной 2D-примерки в одетый аватар на основе 3DGS, который затем анимируется посредством последовательностей SMPL-X и метрически выравнивается в реконструированное облако точек фона. Этот прокси создает прочную структурную основу с превосходной плотностью текстуры и целостностью движения. Наш Video DiT с привязкой к прокси (Proxy-Anchored Video DiT) использует эту прочную структурную основу в качестве первичного геометрического якоря, гарантируя, что синтезированные фотореалистичные видео строго ограничены заданными траекториями и физически правдоподобными деформациями. Благодаря присущей 4D-прокси редактируемости, TryOnCrafter обеспечивает разнообразные прикладные применения, включая перелокализацию человека, эффекты «пули времени» и орбитальный обзор на 360 градусов.

Совершенствование распознавания текста в сценах, ориентированного на художественный текст: наборы данных и методы
Advancing WordArt-Oriented Scene Text Recognition: Datasets and Methods

Jun 23

ByXingsong Ye, Yongkun Du, Jiaxin Zhang, Haojie Zhang, Chong Sun, Chen Li, Jing Lyu, Zhineng Chen

WordArt (художественный текст) характеризуется высокой степенью настройки шрифтов, текстур и компоновок, что делает распознавание текста на сцене, ориентированное на WordArt (WATER), значительно более сложной задачей, чем общее распознавание текста на сцене (STR). Существующие наборы данных и методы STR, как правило, построенные на основе обычного текста на сцене и входных данных с фиксированным шаблоном, с трудом масштабируются для решения задачи WATER. Таким образом, мы стремимся продвинуть эту задачу как с точки зрения данных, так и с точки зрения модели. Со стороны данных мы создаем синтетический набор данных объемом 2M, WATER-S, масштаб которого увеличен в сотни раз по сравнению с существующими данными художественного текста. WATER-S состоит из двух взаимодополняющих поднаборов. Первый генерируется с помощью модернизированного конвейера рендеринга (SynthWordArt), который обеспечивает высокоточные и контролируемые синтетические данные WordArt. Второй создается путем комбинирования Qwen3-VL для поиска подсказок (prompt mining) и Z-Image для синтеза изображений, что улучшает охват реалистичными и разнообразными данными. Со стороны модели мы предлагаем WATERec. Он использует визуальный кодировщик, поддерживающий ввод произвольной формы, и авторегрессионный декодер для моделирования сложных компоновок, что структурно преодолевает узкое место фиксированного шаблона STR при работе с WordArt. Эксперименты показывают, что такая архитектура превосходит предыдущие методы STR, достигая самых современных результатов на нерегулярных текстах, таких как WordArt. Вместе с WATER-R, тщательно реорганизованным на основе существующих реальных данных STR, наша сильная базовая линия с новыми синтетическими данными и дизайном модели достигает точности 90,40% на WordArt-Bench, значительно превосходя универсальные и специализированные для OCR модели зрения-языка. Код и данные доступны по адресу https://github.com/YesianRohn/WATER.

ReNIO: Перевзвешивание важности негативных траекторий для дистилляции на политике больших языковых моделей
ReNIO: Reweighting Negative Trajectory Importance for LLM On-Policy Distillation

Jun 22

ByChen Lin, Kedi Chen, Wei Zhang

On-policy дистилляция (OPD) улучшает рассуждения LLM за счет обучения модели-студента на ее собственных сгенерированных выходных данных, однако стандартная OPD рассматривает все выходные данные, сгенерированные студентом (SGOs), одинаково, независимо от их информативности. Мы наблюдаем устойчивую асимметрию в контролируемых экспериментах по фильтрации: как в OPD, так и в on-policy самодистилляции (OPSD), обучение только на неверных SGOs превосходит обучение только на верных. Наш дальнейший анализ показывает, что модели, обученные только на верных SGOs, склонны генерировать более короткие цепочки рассуждений и демонстрировать более слабое рефлексивное поведение, в то время как неверные SGOs лучше сохраняют исследовательское рассуждение вблизи границы возможностей модели. Чтобы использовать этот сигнал без необходимости в полных развертываниях, содержащих ответ, мы представляем ReNIO, который перевзвешивает важность отрицательных траекторий для on-policy дистилляции LLM. Используя отношение вероятностей студента к учителю, ReNIO идентифицирует ключевые токены, ведущие к неверным цепочкам рассуждений, и агрегирует их информацию в нормализованный вес выборки, по существу присваивая большие веса вероятным отрицательным траекториям без наблюдения за правильностью окончательного ответа. Поскольку ReNIO использует только вероятности токенов, обусловленные префиксом, он сохраняет преимущество OPD в обучении на префиксах перед обучением с подкреплением на полных развертываниях. Как в задачах математического рассуждения, так и в генерации кода, ReNIO улучшает как OPD, так и OPSD, с характерными относительными улучшениями до 8.90% для Qwen3-1.7B и 10.00% для R1-Distill-Qwen-7B на бенчмарках математического рассуждения. Репозиторий с кодом: https://github.com/BDML-lab/ReNIO.

RL-Index: обучение с подкреплением для рассуждения о поисковом индексе
RL-Index: Reinforcement Learning for Retrieval Index Reasoning

Jun 15

ByYongjia Lei, Nedim Lipka, Zhisheng Qi, Utkarsh Sahu, Koustava Goswami, Franck Dernoncourt, Ryan A. Rossi, Yu Wang

Извлечение внешних знаний необходимо для решения реальных задач, однако оно остается сложным, когда связь между запросом и соответствующими знаниями требует неявных и сложных рассуждений, выходящих за рамки поверхностного семантического или лексического соответствия (например, математические задачи, опирающиеся на одну и ту же теорему, или программирование, требующее глубоких рассуждений). Существующие подходы в основном полагаются на рассуждения на стороне запроса (например, переписывание запроса), что приводит к значительной задержке в реальном времени и не позволяет в полной мере использовать возможность проводить рассуждения над самим корпусом знаний (т.е. рассуждения на стороне индекса). В данной работе мы предлагаем RL-Index — агентный фреймворк индексирования, который формулирует рассуждения над индексом поиска как задачу обучения с подкреплением. Вместо выполнения рассуждений во время запроса, RL-Index переносит рассуждения на этап индексирования, дополняя документы сгенерированными LLM обоснованиями, которые явно кодируют скрытую связь между запросом и знаниями. Для оптимизации качества этих обоснований мы применяем групповую относительную оптимизацию политики (GRPO) и используем сходство поиска как поддающийся проверке сигнал вознаграждения, что позволяет напрямую оптимизировать решения по индексированию для повышения эффективности поиска. Обширные эксперименты на эталоне BRIGHT показывают, что RL-Index последовательно улучшает как производительность поиска, так и последующего ответа на вопросы, при этом значительно снижая задержку онлайн-вывода. Более того, обученное дополнение обоснованиями обобщается на различные поисковые системы и генераторы, что подчеркивает его надежность как стратегии индексирования «подключи и работай» в разных поисковых системах.

CAVEWOMAN: Как большие языковые модели ведут себя при лингвистическом сжатии ввода и вывода
CAVEWOMAN: How Large Language Models Behave Under Linguistic Input and Output Compression

Jun 23

ByMorayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

"Говори кратко. Без грамматики. Экономь токены." Этот «пещерный» стиль широко пропагандируется как способ сокращения затрат на инференс, однако реальная экономия зависит от того, какой канал (пользовательский промпт или ответ модели) сжимается. Мы представляем Cavewoman — двухканальный протокол оценки, который для каждой генерации измеряет точность выполнения задачи, фактическую стоимость за элемент и согласованность с эталонным текстом, полученным от модели без ограничений. Мы оцениваем восемь моделей на пяти наборах данных при пяти уровнях сжатия, измеряя оба канала на одних и тех же элементах. Сжатие выходных данных снижает фактическую стоимость для большинства API-моделей (в 1,4–2,4 раза на модель, до 3 раз в лучшем случае) и для всех четырёх моделей с открытыми весами при публичных тарифах. Сжатие входных данных даёт противоположный эффект — строгий проигрыш по всем параметрам: оно повышает чистую стоимость, а не снижает её (примерно в 1,15 раза в среднем по пяти бенчмаркам, до 1,8 раза на худшем наборе данных и до 2,7 раза при более сильном сжатии), поскольку модели компенсируют это более длинными ответами, даже при резком падении точности. В тех же условиях поверхностный текст расходится с неограниченным эталоном: у моделей без рассуждений примерно половина всех генераций верна, но их поверхностный текст больше не подразумевает собственную неограниченную базовую генерацию модели. Это расхождение сохраняется при повторном оценивании с контролем длины, коррекции на множественные сравнения и воспроизводится с использованием дополнительных семантических мер. Код и данные доступны по адресу https://github.com/danielle34/cavewoman.

Распределение битов с учетом RoPE для квантования KV-кэша
RoPE-Aware Bit Allocation for KV-Cache Quantization

Jun 23

ByFengfeng Liang, Yuechen Zhang, Jiaya Jia

Существующие низкобитные квантизаторы KV-кэша часто обрабатывают каждый кэшированный ключ как плоский вектор. Однако при использовании RoPE вклад ключа в будущее внимание по логиту раскладывается на сумму, зависящую от позиции, по двумерным частотным блокам. Это превращает квантизацию ключевого кэша в задачу поблочного распределения битов: высокоэнергетические блоки RoPE более чувствительны к ошибке квантизации и должны получать больше битов. Мы представляем Block-GTQ — чувствительный к RoPE распределитель битов для квантизации ключевого кэша, построенный на основе TurboQuant-MSE (TQ-MSE). Для каждого слоя и KV-головы Block-GTQ вычисляет безметочную оценку энергии для каждого блока RoPE и жадно распределяет целочисленные разрядности по предельному выигрышу. При одинаковых K/V битовых бюджетах Block-GTQ лучше сохраняет логиты запрос-ключ RoPE на диагностической панели из десяти моделей, снижая среднюю абсолютную ошибку (MAE) на слой на 32–80% при K-только квантизации с 2 и 3 битами на размерность и выигрывая все 367/367 сравнений слоёв против равномерного TQ-MSE. Эти выигрыши в точности транслируются в более сильное дальнее извлечение контекста, понимание и рассуждение. На K2V2 для Llama-3.1-8B-Instruct Block-GTQ повышает среднее по шести задачам NIAH с 70,6 до 97,4, а среднее по LongBench-EN — с 36,87 до 53,31. На AIME 2024/2025 с DeepSeek-R1-Distill-Qwen-7B, без буфера недавних ключей в fp16, Block-GTQ при K3V2 достигает 51,7/37,5, что близко к fp16 с 54,2/37,9, тогда как равномерный TQ-MSE падает до 0,0/0,0. Мы также реализовали путь обслуживания с упакованным кэшем. На одном графическом процессоре H800 с Qwen2.5-3B-Instruct упакованный K3V3 обеспечивает 3,24-кратное сжатие KV-кэша с качеством, сравнимым с fp16, работает в 1,34 раза быстрее, чем FlashAttention2 в fp16, при контексте 128K, снижает пиковое использование памяти с 56,31 ГБ до 19,85 ГБ и остаётся работоспособным при 256K и 512K, где fp16 вызывает нехватку памяти. Код доступен по адресу https://github.com/JIA-Lab-research/blockgtq.

Когда меньших привилегий достаточно: исследование выбора инструментов с избыточными привилегиями в LLM-агентах
When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents

Jun 18

ByKaiyue Yang, Yuyan Bu, Jingwei Yi, Yuchi Wang, Biyu Zhou, Juntao Dai, Songlin Hu, Yaodong Yang

По мере того как LLM-агенты всё чаще автономно выбирают инструменты, их решения между инструментами с разными привилегиями приобретают значение для безопасности. Однако предыдущие исследования выбора инструментов сосредоточены на метаданных, не учитывающих безопасность, оставляя выбор с учётом привилегий малоизученным. Для восполнения этого пробела мы изучаем выбор инструментов с избыточными привилегиями, при котором агент выбирает или переходит к инструменту с более высокими привилегиями, несмотря на наличие достаточной альтернативы с более низкими привилегиями. Мы представляем ToolPrivBench для оценки того, выбирают ли агенты инструменты с более высокими привилегиями при наличии достаточных альтернатив с более низкими привилегиями, измеряя как начальный выбор, так и эскалацию после временных сбоев инструментов. На восьми доменах и пяти повторяющихся паттернах риска мы обнаруживаем, что выбор инструментов с избыточными привилегиями распространён среди основных LLM-агентов и дополнительно усиливается временными сбоями. Мы также выясняем, что общее согласование безопасности надёжно не переносится на выбор инструментов с минимальными привилегиями, а средства управления на уровне промптов обеспечивают лишь ограниченное смягчение при временных сбоях. Поэтому мы вводим защиту после обучения с учётом привилегий, которая обучает агентов предпочитать достаточные инструменты с низкими привилегиями и переходить к более привилегированным только при необходимости. Наши эксперименты по смягчению показывают, что эта защита существенно снижает неоправданное использование инструментов с высокими привилегиями, сохраняя при этом общие возможности.

PrivacyAlign: Контекстное согласование приватности для агентов LLM
PrivacyAlign: Contextual Privacy Alignment for LLM Agents

Jun 19

ByManveer Singh Tamber, Abhay Puri, Marc-Etienne Brunet, Perouz Taslakian, Jimmy Lin, Spandana Gella

ИИ-агенты, действующие от имени пользователей, постоянно принимают решения, и для того, чтобы пользователи доверяли своим агентам, эти решения должны соответствовать их реальным желаниям. Конфиденциальность является важной проблемой согласования (alignment) для агентов: каждое сообщение, пост или вызов инструмента, совершаемый агентом, представляет собой контекстуальное суждение о том, что уместно раскрывать, кому и при каких условиях. Поскольку такие суждения зависят от социальных ожиданий и норм, человеческие суждения не только маркируют нарушения конфиденциальности, но и помогают их определить. В то время как существующие работы полагаются на ненадёжные прокси-меры как для обучения, так и для оценки, мы ставим человеческие суждения в центр согласования конфиденциальности агентов. Мы представляем PrivacyAlign — набор данных из 1 350 примеров с 3 516 детальными аннотациями от 599 уникальных аннотаторов в различных сценариях, где современные LLM действительно допускают утечки, и используем его для обоснования как обучения согласованию, так и автоматизированной оценки на основе человеческих норм конфиденциальности. Основываясь на этих аннотациях, мы сначала показываем, что обусловливание LLM-оценщиков на человеческие аннотации и пояснения для эталонных ответов на тот же запрос делает их суждения более надёжными. Затем мы вводим моделирование вознаграждения, обусловленное аннотациями, которое использует эти аннотации для оценки новых ответов в ходе обучения с подкреплением (RL), и демонстрируем, что небольшие агенты с открытыми весами, обученные с таким вознаграждением, лучше согласуются с человеческими нормами конфиденциальности, показывая значительные улучшения на PrivacyAlign и существующих бенчмарках конфиденциальности для агентов.

Lite Any Stereo V2: более быстрое и сильное эффективное zero-shot стерео-сопоставление
Lite Any Stereo V2: Faster and Stronger Efficient Zero-Shot Stereo Matching

Jun 23

ByJunpeng Jing, Ronglai Zuo, Zhelun Shen, Shangchen Zhou, Rolandos Alexandros Potamias, Stefanos Zafeiriou, Krystian Mikolajczyk, Jiankang Deng

Недавние достижения в области стерео-сопоставления позволили достичь впечатляющей точности, однако они часто опираются на крупные модели, высокие вычислительные затраты или дополнительные априорные данные базовых моделей, что затрудняет их развёртывание на платформах с ограниченными ресурсами. Напротив, эффективные стерео-модели обеспечивают более быстрый вывод, но обычно считаются менее способными к сильному обобщению в режиме zero-shot. В данной работе мы оспариваем это предположение, представляя Lite Any Stereo V2 (LAS2) — серию сверхбыстрых моделей, разработанных для эффективного стерео-сопоставления в режиме zero-shot. LAS2 разрабатывался с учётом как архитектурных, так и обучающих аспектов. С архитектурной точки зрения мы пересматриваем проектирование эффективных стерео-систем в условиях практического развёртывания и предлагаем фреймворк агрегации стоимости, основанный исключительно на 2D-операциях и оптимизированный для реальной задержки вывода, а не только для теоретических MAC. Что касается обучения, мы разрабатываем трёхэтапную стратегию, сочетающую синтетическое обучение с учителем, самодистилляцию и дистилляцию знаний на реальных данных. Для повышения надёжности псевдо-наблюдений на реальных данных мы дополнительно вводим фильтрацию псевдо-меток и операцию ограничения ошибок, что обеспечивает более плавный перенос с синтетических на реальные данные. Мы реализуем LAS2 как семейство моделей, включая варианты прямого распространения для различных бюджетов эффективности и итеративный вариант для более высокой точности. Обширные эксперименты показывают, что LAS2 достигает передовой точности среди эффективных стерео-методов, сохраняя при этом значительно меньшую задержку. В частности, LAS2-H демонстрирует более высокую общую производительность в режиме zero-shot, чем итеративный метод Fast-FoundationStereo, при этом обеспечивая в 1,8 и 2,7 раза более быстрый вывод на платформах H200 и Orin соответственно. Страница проекта, демонстрации и код доступны по адресу https://tomtomtommi.github.io/LiteAnyStereoV2/.

Что знают промежуточные слои: обнаружение джейлбрейков по динамике энтропии
What Intermediate Layers Know: Detecting Jailbreaks from Entropy Dynamics

Jun 23

BySofiia Nikolenko, Michele Papucci, Mina Rezaei, Shireen Kudukkil Manchingal

Атаки типа "джейлбрейк" выявляют устойчивую уязвимость согласованных больших языковых моделей: тщательно составленные подсказки могут вызывать ответы, нарушающие политику, несмотря на обучение безопасности. В то время как большинство методов защиты работают на уровне подсказки или вывода, остается неясным, как вредоносный замысел кодируется во внутренних представлениях модели. Мы исследуем этот вопрос, анализируя траектории предсказательной энтропии на уровне токенов по слоям замороженной LLM с помощью логит-линзы. Мы обнаруживаем, что статические агрегированные статистики энтропии на уровне подсказки (например, среднее, дисперсия) несут слабый дискриминативный сигнал, тогда как признаки, описывающие эволюцию энтропии по позициям токенов, такие как монотонные ранговые трендовые оценки, значительно более информативны. Важно, что этот сигнал неоднороден по глубине модели: он сосредоточен в промежуточных слоях и ослабевает на последнем слое, что указывает на то, что релевантная для джейлбрейка структура наиболее выражена в средних представлениях сети, а не на выходном слое. На нескольких моделях (Llama, Qwen, Gemma) и состязательных тестовых наборах эта динамика энтропии обеспечивает архитектурно-согласованное разделение без дополнительного обучения. В совокупности наши результаты показывают, что поведение при джейлбрейке отражается в структурированной динамике неопределенности на промежуточных уровнях, проясняя как то, какие признаки, производные от энтропии, кодируют вредоносный замысел, так и то, в какой части сети этот сигнал наиболее выражен.

Помогают ли токены мышления в обеспечении безопасности?
Do Thinking Tokens Help with Safety?

Jun 23

ByNarutatsu Ri, Abhishek Panigrahi, Sanjeev Arora

Современные модели рассуждения используют токены обдумывания для достижения более высоких результатов на бенчмарках по сравнению с их инструктивно настроенными аналогами. Также широко распространено мнение, что этот более «обдуманный» режим должен улучшать согласованность и безопасность, предоставляя модели безопасное пространство для рассмотрения того, нарушает ли её планируемый ответ на запрос принципы безопасности. Мы представляем доказательства того, что эта интуиция не всегда верна. На примере передовых моделей рассуждения с открытыми весами из семейств GPT-OSS, Qwen, Olmo и Phi мы обнаруживаем, что исход отказ/согласие уже сильно предсказуем с помощью обученного классификатора на скрытом представлении первого токена (0.84-0.95 AUROC и ~88% сбалансированной точности для прогнозирования отказа/согласия) до какого-либо видимого обдумывания. Процесс обдумывания оказывается более похожим на префиксное завершение, чем на обдуманный пересмотр, причем конечный результат редко меняется после первых ~20% обдумывания, несмотря на видимость обдуманности на текстовом уровне (~74% текстовых обдумываний происходят, когда распределение ответов уже зафиксировано на одной стороне отказа/согласия). Мы также обнаруживаем, что существующие интервенции безопасности на этапе инференса и обучения, несмотря на мотивацию, направленную на стимулирование обдумывания, в основном смещают поведение модели в сторону чрезмерного отказа, подавляя и без того редкие сигналы обдумывания. Наши результаты показывают, что безопасное поведение в современных моделях рассуждения гораздо менее обдуманное, чем принято считать, и подчеркивают необходимость методов, которые индуцируют реальное обдумывание безопасности.

Граф сцены физического вопроса: мелкозернистая оценка физической правдоподобности в генерации видео по тексту
Physics Question Scene Graph: Fine-grained Evaluation of Physical Plausibility in Text-to-Video Generation

Jun 24

ByAtin Pothiraj, Jaemin Cho, Yue Zhang, Elias Stengel-Eskin, Mohit Bansal

Модели генерации видео становятся все более способными создавать реалистичные видеоролики, однако им по-прежнему сложно генерировать видео, соответствующие базовым физическим законам. Усугубляет эту проблему отсутствие надежных детализированных методов оценки для локализации и определения нарушений физических законов в видео. Мы решаем эту задачу, представляя Physics Question Scene Graph (PQSG) — иерархический конвейер оценки на основе вопросов. PQSG оценивает сгенерированные видео, проверяя их соответствие подсказке по объектам, действиям и соблюдению физических законов, используя графовую иерархию вопросов, сгенерированных визуально-языковой моделью (VLM) с опорой на высококачественные контекстные примеры. Представляя вопросы в виде графа, PQSG вводит логические зависимости между вопросами, обеспечивая контекстуальную валидность каждого запроса. Кроме того, PQSG предоставляет детализированные оценки того, какие именно характеристики видео нарушают ограничения физической правдоподобности. Мы валидируем PQSG, создавая FinePhyEval — набор данных с подсказками, основанными на физике, и соответствующими сгенерированными видео от различных современных моделей генерации видео (Sora 2, Veo 3 и Wan 2.1), причем каждое видео аннотировано по нескольким категориям человеком. Используя FinePhyEval, мы измеряем корреляцию между детализированными оценками PQSG и человеческими суждениями, показывая более высокую общую корреляцию по сравнению с предыдущими работами. Мы также обнаружили, что PQSG оценивает закрытые модели выше, чем Wan 2.1, по показателю физического реализма. Наконец, мы показываем, что предоставленные в FinePhyEval аннотации могут быть использованы для оценки подзадач: мы тестируем две сильные VLM на генерацию и ответы на вопросы, обнаруживая, что хотя модели способны создавать человеко-подобные вопросы, они все еще уступают человеку в ответах на них.

Планы непостоянны: почему управление контекстом является несущим элементом для агентов на основе LLM
Plans Don't Persist: Why Context Management Is Load Bearing for LLM Agents

Jun 22

ByAman Mehta, Anupam Datta

Агенты с длительным горизонтом зависят от управления контекстом: системы сжимают, обобщают и вытесняют старые токены, чтобы задачи могли продолжаться за пределами конечных окон. Это безопасно только тогда, когда отбрасываемая информация больше не нужна или была интернализована. Планы представляют собой критический случай: они создаются рано, используются на многих шагах и первыми вытесняются. Мы вводим парное воспроизведение — диагностический метод, который запускает одну и ту же траекторию с планом в истории и без него и измеряет косинусное расстояние скрытого состояния. Для Llama-3.1-70B сигнал плана возрастает до 0,453 на один шаг после плана, затем падает в 4,1 раза за один шаг действия-наблюдения; для HotpotQA падает в 12,4 раза. Это свидетельствует о том, что стандартные LLM-агенты не переносят планы вперед как постоянное состояние, а вместо этого зависят от того, что план остается в контексте. Зонд на слое L32 обнаруживает это затухание как диагностический признак, а не как доказательство того, что он сам считывает содержание плана. Модели рассуждений добавляют измерительный искажающий фактор: их трассировки `<think>` заново выводят содержание плана, поэтому стандартное удаление оставляет свидетельства плана в условии с удалением. Мы называем это искажающим фактором трассировки рассуждений и исправляем его с помощью строгого удаления, которое удаляет предыдущие блоки `<think>` только из прогона с удалением. Это восстанавливает +163% сигнала шага+1 на выборке и +153% на отложенных данных, при этом не меняя значительно Llama без рассуждений (+4,8%). На DeepSeek-R1-Distill-Llama-70B зонд, обученный на Llama, переносится с AUROC 0,748 (p=6e-4), в то время как специфичные для R1 зонды достигают 1,000, что предполагает, что R1 кодирует сигнал плана в другом направлении скрытого состояния. Наконец, стресс-тест сжатия показывает практическую цену: наивное вытеснение плана снижает успешность на ALFWorld на 34,7 процентных пункта, в то время как повторное появление с использованием зонда не восстанавливает ее. Вклад заключается в создании измерительной и стресс-тестовой платформы, показывающей, что критически важная для агента информация может находиться в контексте, а не быть постоянной. Управление контекстом является несущей конструкцией, но одной лишь защиты плана недостаточно.

Однократная дистилляция и пожизненная адаптация: исследование дистилляции наборов данных для непрерывной адаптации во время тестирования
Distill Once, Adapt Life-Long: Exploring Dataset Distillation for Continual Test-Time Adaptation

Jun 18

ByHyun-Kurl Jang, Jihun Kim, Hyeokjun Kweon, Kuk-Jin Yoon

Непрерывная адаптация во время тестирования (CTTA) направлена на поддержание производительности модели в условиях эволюционирующих целевых доменов за счет онлайн-адаптации без использования размеченных данных. Однако на практике развертывание часто не позволяет сохранить исходный набор данных из-за ограничений конфиденциальности или лицензирования, а чисто безисточниковые методы CTTA склонны к нестабильности при долгосрочных сдвигах распределения, страдая от накопления ошибок самообучения и катастрофического забывания. Мы представляем DO-ALL (Distill Once, Adapt Life-Long) — встраиваемый фреймворк, который восстанавливает информацию об исходных данных в компактной и конфиденциальной форме с помощью дистилляции набора данных (DD). Перед развертыванием DO-ALL выполняет DD для создания небольшого набора синтетических дистиллированных якорей, обобщающих исходное распределение. В процессе адаптации каждый целевой образец сопоставляется с наиболее семантически близким якорем, который обеспечивает стабильную основу для различных подходов CTTA через воспроизведение исходных данных, выравнивание представлений и регуляризацию сглаживания многообразия. DO-ALL может быть легко интегрирован в существующие алгоритмы CTTA, последовательно улучшая долгосрочную устойчивость на наборах данных CIFAR100-C, ImageNet-C и эталоне CCC. Это демонстрирует потенциал использования DD для обеспечения стабильной и непрерывной адаптации без сохранения исходных необработанных данных. Код доступен по адресу https://github.com/blue-531/DOALL.

Налог ограничений в LLM с открытыми весами: эмпирическое исследование подавления вызова инструментов при ограничениях на структурированный вывод
Constraint Tax in Open-Weight LLMs: An Empirical Study of Tool Calling Suppression Under Structured Output Constraints

Jun 24

ByFangzheng Li, Aimin Zhang, Chen Lv

Вызов инструментов и структурированный вывод являются двумя ключевыми возможностями современных агентных систем, однако их взаимодействие в условиях совместного развертывания остается недостаточно изученным. В данной статье сообщается о воспроизводимом явлении, наблюдавшемся в продуктивной агентной системе: при одновременном включении вызова инструментов и ограничений JSON-схемы несколько моделей с открытыми весами прекращают вызывать инструменты, несмотря на высокую степень соблюдения схемы. Мы называем такое поведение подавлением инструментов. В ходе контролируемых экспериментов с несколькими семействами моделей и условиями развертывания мы последовательно воспроизводим подавление инструментов при совместных ограничениях, в то время как выполнение инструментов и соответствие схеме остаются работоспособными при независимом оценивании. Дальнейший анализ показывает, что ограничения JSON-схемы компилируются в грамматические токен-маски, что делает токены вызова инструментов недостижимыми в процессе декодирования. Это дает объяснение наблюдаемому поведению на уровне реализации. Для интерпретации явления мы формулируем гипотезу инверсии приоритета ограничений (CPI), которая предполагает, что при наличии нескольких одновременных ограничений удовлетворение схемы может доминировать над поведением выбора действий. Мы представляем CPI как поведенческую гипотезу, согласующуюся с наблюдаемыми данными, а не как подтвержденный внутренний механизм. Для смягчения проблемы мы предлагаем прозрачное двухпроходное выполнение — стратегию на этапе инференса, которая разделяет выполнение инструментов и генерацию ответа с ограничениями схемы. Экспериментальные результаты показывают, что данный подход восстанавливает вызов инструментов, сохраняя гарантии структурированного вывода без необходимости переобучения модели. Эти выводы свидетельствуют о том, что раздельная оценка использования инструментов и структурированного вывода может упускать из виду важные проблемы надежности в продуктивных агентных системах. Код, данные и документация будут опубликованы по адресу https://github.com/Fzsama/Constrain-Tax-26-06.git.

Прогнозирование будущего поведения как задача обучения
Forecasting Future Behavior as a Learning Task

Jun 9

ByMosh Levy, Yoav Goldberg, Asa Cooper Stickland

Доверие к системе ИИ часто обусловлено объяснениями того, как она работает, которые затем используются для прогнозирования ее поведения на новых входных данных. Для больших моделей рассуждений (БМР) этот традиционный путь особенно трудно реализовать: методы объяснения для отдельных генераций токенов не обобщаются естественным образом на длинные траектории, а сами траектории зачастую недостоверны при прочтении в виде естественного языка. Мы предлагаем альтернативу, которая обходит этап объяснения: рассматривать прогнозирование поведения как обучаемую задачу и обучать Предикторов поведения, которые на основе одной траектории рассуждения делают те же прогнозы, которые обычно требуются от объяснения. Обучающие данные для предиктора получаются путем запросов к БМР без человеческой аннотации, а его вывод выполняется за один прямой проход. Мы реализуем этот подход для двух задач: вероятности того, что БМР повторит свой ответ при повторных запусках, и того, как удаление частей входных данных меняет ее ответ. Мы оцениваем этот подход на обеих задачах на трех разнообразных наборах данных для рассуждений и обнаруживаем, что обученные Предикторы поведения точнее, чем GPT-5.4 и Claude Opus-4.6, читающие те же траектории в качестве наивных читателей, при малой доле их вычислительных затрат. Мы находим, что сквозная тонкая настройка базовой модели и ее инициализация из целевой БМР необходимы для высокой производительности. Эти результаты показывают, что траектория рассуждения несет информацию о будущем поведении БМР, выходящую за рамки того, что передается при наивном чтении.

Идентичность говорящего в невербальных вокализациях: условная дистилляция и подход смеси экспертов
Speaker Identity in Non-Verbal Vocalizations: Conditional Distillation and Mixture of Experts Approach

Jun 19

ByTzu-Chieh Wei, Yi-Cheng Lin, Huang-Cheng Chou, Kuan-Yu Chen, Hsin-Yen Sung, Shrikanth Narayanan, Hung-yi Lee

По мере того, как системы экспрессивного синтеза речи из текста (TTS) и преобразования голоса (VC) все чаще генерируют невербальные вокализации (NVVs) для повышения естественности, надежная верификация диктора (SV) становится необходимой для объективной оценки согласованности идентичности как в вербальных, так и в невербальных сегментах. Однако современные системы SV плохо обобщаются на NVVs, а дообучение на данных NVVs вызывает катастрофическое забывание речевых характеристик. Мы представляем первое систематическое исследование, охватывающее 10 типов NVVs, и предлагаем архитектуру, объединяющую замороженные самоконтролируемые признаки Data2Vec с ECAPA-TDNN, дополненную модулем смеси экспертов (MoE) с обученной маршрутизацией с учетом домена. Условный дистилляционный лосс на речевых входах, получаемый от предобученного учителя, сохраняет точность верификации «речь-речь», а контрастивный лосс устраняет разрыв между доменами речи и NVVs. Наш метод снижает показатель EER для пары «речь-NVVs» с 38,93% до 22,66% по сравнению с предобученным базовым уровнем, а также улучшает EER для речи с 13,17% до 9,24% за счет дистилляции.