HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

53 papers found

Анти-самодистилляция для рассуждающего RL через точечную взаимную информацию
Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

May 12

ByGuobin Shen, Xiang Cheng, Chenxiao Zhao, Lei Huang, Jindong Li, Dongcheng Zhao, Xing Yu

191

Он-политическая самодистилляция, при которой студент подтягивается к копии самого себя, обусловленной привилегированным контекстом (например, проверенным решением или обратной связью), представляет собой перспективное направление для улучшения способности к рассуждению без привлечения более сильного внешнего учителя. Однако в области математического рассуждения прирост результатов нестабилен, даже если тот же подход успешно работает в других областях. Анализ попарной взаимной информации связывает неудачу с самим привилегированным контекстом: он завышает уверенность учителя в токенах, уже подразумеваемых решением (структурные связки, верифицируемые утверждения), и занижает её на токенах размышления («Wait», «Let», «Maybe»), которые управляют многошаговым поиском. Мы предлагаем анти-самодистилляцию (AntiSD), которая увеличивает дивергенцию между студентом и учителем, а не уменьшает её: это меняет знак для каждого токена и даёт естественно ограниченное преимущество за один шаг. Энтропийно-управляемый гейт отключает этот член, как только энтропия учителя падает, что завершает прямую замену стандартной самодистилляции. На пяти моделях от 4B до 30B параметров на бенчмарках математического рассуждения AntiSD достигает точности базового уровня GRPO за количество шагов обучения в 2–10 раз меньше и улучшает итоговую точность на величину до 11,5 пунктов. AntiSD открывает путь к масштабируемому самоулучшению, где языковая модель самостоятельно улучшает своё рассуждение за счёт собственного обучающего сигнала.

AutoResearchClaw: самоусиливающееся автономное исследование с участием человека и ИИ
AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration

May 19

ByJiaqi Liu, Shi Qiu, Mairui Li, Bingzhou Li, Haonian Ji, Siwei Han, Xinyu Ye, Peng Xia, Zihan Dong, Congyu Zhang, Letian Zhang, Guiming Chen, Haoqin Tu, Xinyu Yang, Lu Feng, Xujiang Zhao, Haifeng Chen, Jiawei Zhou, Xiao Wang, Weitong Zhang, Hongtu Zhu, Yun Li, Jieru Mei, Hongliang Fei, Jiaheng Zhang, Linjie Li, Linjun Zhang, Yuyin Zhou, Sheng Wang, Caiming Xiong, James Zou, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao

182

Автоматизация научных открытий требует большего, чем просто генерация статей на основе идей. Реальные исследования итеративны: гипотезы проверяются с разных сторон, эксперименты дают сбои и становятся основой для следующей попытки, а накопленные уроки переносятся из цикла в цикл. Существующие автономные исследовательские системы часто моделируют этот процесс как линейный конвейер: они полагаются на рассуждения единственного агента, останавливаются при сбое выполнения и не переносят опыт между запусками. Мы представляем AutoResearchClaw — мультиагентный автономный исследовательский пайплайн, построенный на пяти механизмах: структурированные мультиагентные дебаты для генерации гипотез и анализа результатов, самовосстанавливающийся исполнитель с циклом принятия решений Pivot/Refine, превращающим неудачи в информацию, верифицируемый отчет о результатах, предотвращающий поддельные числа и вымышленные цитирования, коллаборация с участием человека с семью режимами вмешательства — от полной автономии до пошагового контроля, а также межзапусковая эволюция, преобразующая прошлые ошибки в будущие гарантии. На ARC-Bench, бенчмарке экспериментальной стадии из 25 тем, AutoResearchClaw превосходит AI Scientist v2 на 54,7%. Абляция с участием человека в семи режимах вмешательства показывает, что точное целенаправленное сотрудничество в точках принятия решений с высоким рычагом неизменно превосходит как полную автономию, так и исчерпывающий пошаговый контроль. Мы позиционируем AutoResearchClaw как усилитель исследований, который дополняет, а не заменяет научное суждение человека. Код доступен по адресу https://github.com/aiming-lab/AutoResearchClaw.

Когда зрение говорит за звук
When Vision Speaks for Sound

May 13

ByXiaofei Wen, Wenjie Jacky Mo, Xingyu Fu, Rui Cai, Tinghui Zhu, Wendi Li, Yanan Xie, Muhao Chen, Peng Qi

147

Несмотря на стремительный прогресс в области видеоспособных MLLM, мы обнаруживаем, что их кажущееся понимание аудио в видео часто является зрительно-обусловленным: модели полагаются на визуальные подсказки, чтобы выводить или галлюцинировать акустическую информацию, вместо проверки аудиопотока. Эта проблема проявляется как в современных open-source omni-моделях, так и в ведущих закрытых моделях от таких провайдеров, как Google и OpenAI. Мы характеризуем этот режим отказа как аудиовизуальный эффект Умного Ганса, при котором модели кажутся (ложно) опирающимися на аудио, но на самом деле эксплуатируют визуально-акустические корреляции, не проверяя, действительно ли аудио- и видеопотоки согласованы. Для систематического изучения такого поведения мы представляем Thud — основанный на вмешательствах фреймворк для зондирования, использующий три контрфактические звуковые правки: Сдвиг (проверка временной синхронизации), Отключение (проверка наличия звука) и Замена (проверка аудиовизуальной согласованности). Помимо диагностики, мы также исследуем двухэтапный рецепт выравнивания: полученные с помощью вмешательства пары предпочтений обучают аудиоверификации, в то время как общие видеопредпочтения на уровне событий регуляризуют модель против чрезмерной специализации. Наш лучший рецепт с 10 тыс. образцов улучшает среднюю производительность по трем измерениям вмешательства на 28 процентных пунктов, при этом незначительно улучшая производительность на общих бенчмарках для видео и аудиовизуальных вопросов-ответов.

Активные обучающиеся как эффективные реранкеры PRP
Active Learners as Efficient PRP Rerankers

May 15

ByJeremías Figueiredo Paschmann, Juan Kaplan, Francisco Nattero, Santiago Barron, Juan Wisznia, Luciano del Corro

Промптинг парного ранжирования (ППР) извлекает из большой языковой модели (БЯМ) парные предпочтения, которые затем агрегируются в ранжирование, обычно с помощью классических алгоритмов сортировки. Однако такие суждения зашумлены, чувствительны к порядку и иногда нетранзитивны, поэтому допущения о сортировке не соответствуют данной задаче. Поскольку сортировка направлена на восстановление полной перестановки, её усечение для соблюдения бюджета вызовов не даёт надёжного top-K. В связи с этим мы переосмысливаем переранжирование с помощью ППР как активное обучение на основе зашумлённых парных сравнений и показываем, что активные ранжировщики могут служить прямой заменой, улучшая NDCG@10 на один вызов в режиме ограниченных вызовов. Наша помехоустойчивая структура также вводит оракул со случайным направлением, который использует один вызов БЯМ на пару. Данный подход преобразует систематическое позиционное смещение в шум с нулевым средним, что позволяет получать несмещённое агрегированное ранжирование без затрат на двунаправленные вызовы.

OpenComputer: Верифицируемые программные миры для агентов, использующих компьютеры
OpenComputer: Verifiable Software Worlds for Computer-Use Agents

May 19

ByJinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan

Мы представляем OpenComputer — основанную на верификаторах структуру для создания проверяемых программных миров для агентов, использующих компьютеры. OpenComputer объединяет четыре компонента: (1) специфичные для приложений верификаторы состояний, предоставляющие структурированные конечные точки инспекции для реальных приложений; (2) саморазвивающийся уровень верификации, повышающий надежность верификаторов с помощью обратной связи, основанной на выполнении; (3) конвейер генерации задач, синтезирующий реалистичные и проверяемые машиной настольные задачи; (4) инструмент оценки, записывающий полные траектории и вычисляющий аудитируемые награды за частичное выполнение. В текущей версии OpenComputer охватывает 33 настольных приложения и 1000 завершенных задач, охватывающих браузеры, офисные инструменты, творческое ПО, среды разработки, файловые менеджеры и коммуникационные приложения. Эксперименты показывают, что жестко запрограммированные верификаторы OpenComputer лучше согласуются с человеческой оценкой, чем оценка с помощью LLM-судьи, особенно когда успех зависит от мелкозернистого состояния приложения. Передовые агенты испытывают трудности с полным выполнением задач, несмотря на частичный прогресс, а модели с открытым исходным кодом демонстрируют резкое снижение показателей по сравнению с их оценками OSWorld-Verified, что выявляет устойчивый разрыв в надежной компьютерной автоматизации.

GoLongRL: Способностно-ориентированное обучение с подкреплением на длинном контексте с многозадачным согласованием
GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

May 19

ByMinxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li

Мы представляем GoLongRL — полностью открытую рецептуру пост-тренировки, ориентированную на формирование способностей для обучения с подкреплением на основе верифицируемых вознаграждений (RLVR) в длинных контекстах. Существующие методы RL для длинных контекстов часто рассматривают построение данных как задачу проектирования всё более сложных путей извлечения, что приводит к однородному охвату задач и формулировкам вознаграждения, неадекватно отражающим практические требования работы с длинными контекстами. Наша работа предлагает два вклада. (1) Построение данных, ориентированное на способности, с полным открытым релизом. Мы открыто публикуем набор данных из 23 тысяч примеров RLVR, полный конвейер их построения и весь обучающий код. Руководствуясь таксономией способностей к работе с длинными контекстами, набор данных охватывает 9 типов задач, каждая из которых снабжена своей естественной оценочной метрикой. Он включает отобранные открытые примеры из известных корпусов и синтетические примеры, пары вопрос-ответ для которых генерируются из реальных исходных документов, таких как книги, научные статьи и многораундовые диалоги. В той же базовой конфигурации GRPO только наш набор данных превосходит закрытый набор QwenLong-L1.5. Более того, наша модель Qwen3-30B-A3B, обученная на этих данных, демонстрирует производительность на длинных контекстах, сравнимую с DeepSeek-R1-0528 и Qwen3-235B-A22B-Thinking-2507, что позволяет предположить, что более широкий охват и большее разнообразие вознаграждений существенно способствуют улучшению способностей к работе с длинными контекстами. (2) TMN-Reweight для гетерогенной многозадачной оптимизации. Для решения проблем оптимизации, связанных с гетерогенными вознаграждениями, мы предлагаем TMN-Reweight, который объединяет среднюю нормализацию на уровне задач для выравнивания шкал вознаграждений между задачами с адаптивным взвешиванием по сложности для более надежной оценки преимущества. TMN-Reweight дополнительно улучшает среднюю производительность по сравнению с базовым GRPO, при этом общие способности сохраняются или улучшаются по всем представленным оценкам.

Вознаграждения процесса с обученной надежностью
Process Rewards with Learned Reliability

May 15

ByJinyuan Li, Langlin Huang, Chengsong Huang, Shaoyang Xu, Donghong Cai, Yuyi Yang, Wenxuan Zhang, Jiaxin Huang

Модели вознаграждения за процесс (PRM) обеспечивают пошаговую обратную связь при рассуждениях, однако современные PRM обычно выдают только одну оценку вознаграждения за каждый шаг. Поэтому нисходящие методы вынуждены рассматривать несовершенные предсказания пошаговых вознаграждений как надежные сигналы для принятия решений, не имея указаний о том, когда эти предсказания следует доверять. Мы предлагаем BetaPRM — дистрибутивную PRM, которая предсказывает как вероятность успеха на уровне шага, так и надежность этого предсказания. Используя наблюдения за успешностью шагов на основе продолжений Монте-Карло, BetaPRM обучает бета-априорное распределение, которое объясняет наблюдаемое количество успешных продолжений через бета-биномиальное правдоподобие, а не регрессирует к соотношению успехов в конечной выборке как к точечной цели. Этот изученный сигнал надежности указывает, когда следует доверять вознаграждению за шаг, позволяя нисходящим приложениям отличать надежные вознаграждения от неопределенных. В качестве одного из применений мы вводим адаптивное распределение вычислений (ACA) для рассуждений методом "лучший из N" с направляющей ролью PRM. ACA использует изученный сигнал надежности для остановки при достижении надежного решения с высоким вознаграждением и для выделения дополнительных вычислений на неопределенные префиксы-кандидаты. Эксперименты на четырех бэкбонах и четырех бенчмарках рассуждений показывают, что BetaPRM улучшает выбор методом "лучший из N" с направляющей ролью PRM, сохраняя при этом стандартное обнаружение ошибок на уровне шагов. Основанное на этом сигнале, ACA улучшает компромисс между точностью и количеством токенов по сравнению с фиксированным бюджетом "лучший из 16", сокращая использование токенов до 33,57% при одновременном повышении точности итогового ответа.

EnvFactory: масштабирование агентов, использующих инструменты, посредством синтеза исполняемых сред и робастного обучения с подкреплением
EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

May 18

ByMinrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo

Оснащение LLM способностями к использованию инструментов посредством агентного обучения с подкреплением (Agentic RL) ограничено двумя проблемами: отсутствием масштабируемых и надежных сред выполнения, а также нехваткой реалистичных обучающих данных, отражающих неявные человеческие рассуждения. Существующие подходы опираются на дорогостоящие реальные API, подверженные галлюцинациям LLM-симуляторы или синтетические среды, которые зачастую являются одношаговыми или зависят от предварительно собранных документов. Кроме того, синтетические траектории часто оказываются излишне конкретизированными, напоминая последовательности инструкций, а не естественные человеческие намерения, что снижает их эффективность для обучения с подкреплением. Мы представляем EnvFactory — полностью автоматизированную среду, решающую обе проблемы. EnvFactory автономно исследует и верифицирует сохранные, исполнимые инструментальные среды на основе аутентичных ресурсов, а также синтезирует естественные многошаговые траектории с помощью топологически-осознанной выборки и калиброванного уточнения, создавая обоснованные запросы с неявными намерениями. Используя всего 85 верифицированных сред из 7 доменов, EnvFactory генерирует 2575 SFT- и RL-траекторий. Несмотря на использование значительно меньшего количества сред (часто в 5 раз меньше) по сравнению с предыдущими работами, EnvFactory демонстрирует превосходную эффективность обучения и downstream-производительность, улучшая модели серии Qwen3 на величину до +15% на BFCLv3, +8,6% на MCP-Atlas и +6% на разговорных бенчмарках, включая τ^2-Bench и VitaBench. Полностью автоматизируя как создание сред, так и синтез траекторий, EnvFactory обеспечивает масштабируемую, расширяемую и надежную основу для Agentic RL.

CogOmniControl: Управляемая рассуждениями генерация видео посредством когнитивного анализа творческого замысла
CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition

May 19

ByHongji Yang, Songlian Li, Yucheng Zhou, Xiaotong Zhao, Alan Zhao, Chengzhong Xu, Jianbing Shen

Недавние диффузионные модели демонстрируют высокий фотореализм и плавность в генерации видео, однако остаются хрупкими при абстрактных, разреженных или сложных условиях, что приводит к низкой производительности в профессиональных производственных процессах, таких как раскадровки и условия рендеринга глины. Существующие модели генерации видео либо внедряют условия через адаптеры, либо объединяют общую визуально-языковую модель (VLM) с диффузионным бэкбоном, оставляя разрыв в возможностях и неспособность создавать видео, соответствующие творческому замыслу пользователя. Мы представляем CogOmniControl — основанную на рассуждениях структуру, которая разделяет управляемую генерацию видео на познание творческого замысла и саму генерацию. В частности, мы обучаем специализированную CogVLM, используя аутентичные производственные данные аниме. По сравнению с общими VLM, она генерирует более профессиональные и четкие результаты, точно распознавая творческий замысел пользователя из разреженных и абстрактных условий и преобразуя эти сигналы в плотные результаты рассуждений. Кроме того, CogOmniDiT унифицирует управление от различных условий через внутриконтекстную генерацию и согласуется с результатами рассуждений CogVLM с помощью обучения с подкреплением. Более того, используя надежную способность CogVLM направлять генерацию видео, мы раскрываем ее потенциал в планировании конкретных оценщиков и обеспечиваем выбор Best-of-N для сгенерированных видео. Эта интеграция превращает всю структуру в замкнутую архитектуру типа «упряжки». Мы также представляем CogReasonBench и CogControlBench, построенные на данных профессиональных рабочих процессов, которые несут подлинный творческий замысел, а не смоделированный. Эксперименты на двух эталонных тестах показывают, что CogOmniControl превзошла существующие модели с открытым исходным кодом. Веб-сайт проекта: https://um-lab.github.io/CogOmniControl/

Использование агентов LLM с помощью программ навыков
Harnessing LLM Agents with Skill Programs

May 18

ByHongjun Liu, Yifei Ming, Shafiq Joty, Chen Zhao

Оснащение LLM-агентов повторно используемыми навыками, полученными из прошлого опыта, стало популярным и успешным подходом для решения сложных и долгосрочных задач. Однако такие уроки часто кодируются в виде текстовых инструкций, которые остаются в значительной степени рекомендательными, не имея явных механизмов для определения того, когда и как вмешиваться в цикл работы агента. Чтобы устранить этот разрыв, мы представляем HASP (Harnessing LLM Agents with Skill Programs) — новую платформу, которая преобразует навыки в исполняемые программные функции (Program Functions, PFs). Вместо пассивных рекомендаций PFs действуют как исполняемые предохранительные механизмы, которые активируются в состояниях, склонных к сбоям, и изменяют следующее действие или внедряют корректирующий контекст. HASP отличается высокой модульностью: его можно применять на этапе инференса для прямого вмешательства в цикл агента, во время пост-тренировки для обеспечения структурированного контроля или для самоулучшения путем эволюции проверенных и одобренных преподавателем PFs. Эмпирически HASP обеспечивает значительные улучшения по сравнению как с методами без обучения, так и с методами, основанными на обучении, в задачах веб-поиска, математических рассуждений и программирования. Например, в задаче рассуждений на основе веб-поиска одни только PFs на этапе инференса повышают среднюю производительность на 25% по сравнению с (многоконтурным) агентом ReAct, в то время как пост-тренировка и контролируемая эволюция достигают прироста в 30,4% по сравнению с Search-R1. Чтобы дать более глубокое понимание HASP, наш анализ механизмов показывает, как PFs запускаются и вмешиваются, как навыки интернализируются, и требования для стабильной эволюции библиотеки навыков.

Aurora: унифицированное редактирование видео с агентом, использующим инструменты
Aurora: Unified Video Editing with a Tool-Using Agent

May 18

ByYongsheng Yu, Ziyun Zeng, Zhiyuan Xiao, Zhenghong Zhou, Hang Hua, Wei Xiong, Jiebo Luo

Недавние модели редактирования видео сошлись на единой схеме кондиционирования: один диффузионный трансформер совместно обрабатывает текст, исходное видео и референсные изображения, а один набор весов охватывает замену, удаление, перенос стиля и вставку на основе референсов. Такая конструкция гибкая, но предполагает, что пользователь уже предоставляет готовый для модели текст, референсные изображения и пространственную привязку для локальных правок, что в реальных запросах часто опускается. Мы представляем Aurora — агентную структуру редактирования видео, которая объединяет агента на основе зрительно-языковой модели (VLM), дополненной инструментами, с единым диффузионным трансформером видео. Агент VLM преобразует сырой запрос пользователя в структурированный план редактирования, согласованный с каналами кондиционирования трансформера, тем самым устраняя текстовую и визуальную неполную спецификацию до генерации. Мы обучаем агента VLM на контролируемых данных для полного планирования редактирования и выбора референсных изображений, а также на парах предпочтений для надежного использования инструментов и уточнения инструкций. Мы представляем AgentEdit-Bench для оценки редактирования видео с усилением агента в условиях текстовой и визуальной неполной спецификации. Эксперименты на AgentEdit-Bench и двух существующих бенчмарках редактирования видео показывают, что Aurora превосходит базовые модели, использующие только инструкции, и что агент VLM переносится на совместимые замороженные модели редактирования видео. Страница проекта: https://yeates.github.io/Aurora-Page

Artifact-Bench: оценка MLLMs на предмет обнаружения и оценки артефактов AI-сгенерированных видео
Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos

May 18

ByYuqi Tang, Yang Shi, Zhuoran Zhang, Qixun Wang, Xuehai Bai, Yue Ding, Ruizhe Chen, Bohan Zeng, Xinlong Chen, Xuanyu Zhu, Bozhou Li, Yuran Wang, Yifan Dai, Chengzhuo Tong, Xinyu Liu, Yiyan Ji, Yujie Wei, Yuhao Dong, Shilin Yan, Fengxiang Wang, Yi-Fan Zhang, Haotian Wang, Yuanxing Zhang, Pengfei Wan

Последние модели генерации видео значительно улучшили реалистичность видеоматериалов, созданных с помощью ИИ, однако их выходные данные всё ещё содержат артефакты, такие как временные несоответствия, структурные искажения и семантическая несогласованность. Хотя мультимодальные большие языковые модели (MLLM) демонстрируют высокие способности к визуальному восприятию, их умение замечать и анализировать подобные артефакты остаётся неясным. Существующие бенчмарки часто не включают систематической оценки восприятия артефактов и детальной диагностической аргументации, особенно в различных областях видеоматериалов, созданных ИИ, выходящих за рамки фотореалистичного контента. Для восполнения этого пробела мы представляем Artifact-Bench — всесторонний бенчмарк для оценки MLLM на предмет обнаружения и анализа артефактов в видео, сгенерированных ИИ. Сначала мы создаём иерархическую таксономию артефактов реалистичности трёх уровней, охватывающую фотореалистичные, анимированные видео и видео в стиле компьютерной графики. Основываясь на этой таксономии, Artifact-Bench определяет три взаимодополняющие задачи: классификацию реальных и сгенерированных ИИ видео, попарное сравнение реалистичности и детальное выявление артефактов. Эксперименты с 19 ведущими MLLM выявляют существенные ограничения в восприятии и анализе артефактов: многие модели показывают результаты, близкие к случайным или даже ниже случайных, в сложных сценариях. Кроме того, мы наблюдаем значительное несоответствие между оценками MLLM и предпочтениями человека в восприятии, что подчёркивает их ограниченную надёжность в качестве универсальных оценщиков реалистичности видео, созданных ИИ.

ThoughtTrace: Понимание мыслей пользователей в реальных взаимодействиях с LLM
ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions

May 19

ByChuanyang Jin, Binze Li, Haopeng Xie, Cathy Mengying Fang, Tianjian Li, Shayne Longpre, Hongxiang Gu, Maximillian Chen, Tianmin Shu

Разговорный ИИ теперь охватывает миллиарды пользователей, однако существующие наборы данных фиксируют лишь то, что говорят люди, а не то, о чём они думают. Мы представляем ThoughtTrace — первый крупномасштабный набор данных, который связывает реальные многошаговые диалоги человека с ИИ и самооценённые мысли пользователей: их причины отправки запросов и реакции на ответы ассистента. ThoughtTrace включает 1 058 пользователей, 2 155 диалогов, 17 058 реплик и 10 174 аннотации мыслей, собранные на материале 20 языковых моделей. Наш анализ показывает, что ThoughtTrace охватывает долгосрочные, тематически разнообразные взаимодействия, причём мысли семантически отличны от сообщений, сложны для вывода передовыми LLM из контекста, разнообразны по содержанию и привязаны к этапам диалога. Мы также демонстрируем полезность мыслей для последующего моделирования. Во-первых, мысли улучшают прогнозирование поведения пользователя в качестве контекста на этапе вывода. Во-вторых, направленные мыслями переформулировки дают сигналы точной настройки соответствия для обучения персонализированных ассистентов. В совокупности ThoughtTrace вводит мысли пользователя как новую модальность данных для изучения когнитивной динамики, стоящей за взаимодействием человека и ИИ, и закладывает основу для создания ассистентов, которые лучше понимают скрытые цели, предпочтения и потребности пользователей и адаптируются к ним.

OmniGUI: Бенчмаркинг GUI-агентов в омни-модальных средах смартфонов
OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments

Apr 3

ByFelix Henry, Xiaochen Lin, Jiangyou Zhu, Yangfan, Bingqian Zhang, Min Chen, Shiyu Huang

Современные бенчмарки для агентов графического пользовательского интерфейса (GUI) в основном полагаются на статические снимки экрана. Однако реальное взаимодействие со смартфоном часто требует от агентов обработки кратковременных аудиосигналов и динамики видео во времени, которые тесно связаны с моментом действия. Для преодоления этого разрыва мы представляем OmniGUI — первый пошаговый бенчмарк, предназначенный для оценки GUI-агентов в омни-модальных средах смартфонов. OmniGUI предоставляет непрерывные, перемежающиеся мультимодальные входные данные, включающие статические изображения, синхронное аудио и видеоклипы на каждом этапе действия. Набор данных охватывает 709 эпизодов, продемонстрированных экспертами (2 579 шагов действий), в 29 приложениях, систематически аннотированных с указанием объективных уровней мультимодальной зависимости. Поскольку специализированные фреймворки для омни-модальных GUI-агентов находятся на начальной стадии развития, мы выбрали фундаментальные омни-модальные модели, способные нативно обрабатывать перемежающиеся входные данные, в качестве прокси-агентов для наших исходных базовых линий. Наша эмпирическая оценка показывает, что хотя текущие модели демонстрируют компетентность в визуально статичных задачах, их производительность в прогнозировании действий значительно снижается в средах, требующих синхронных временных и слуховых сигналов. Кроме того, абляционные исследования выявляют конкретные операционные узкие места, в частности перекрестную модальную интерференцию при обработке нерелевантного задаче фонового шума. Полный набор данных, конвейер оценки и базовые промпты предоставлены в дополнительных материалах. Страница проекта: https://omni-gui.github.io.

MSAVBench: к комплексной и надежной оценке многосценарной генерации аудио-видео
MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

May 19

ByYujie Wei, Yujin Han, Zhekai Chen, Yongming Li, Kaixun Jiang, Zhihang Liu, Quanhao Li, Zhiwu Qing, Xiang Wang, Zhen Xing, Ruihang Chu, Lingyi Hong, Yefei He, Junjie Zhou, Junqiu Yu, Yang Shi, Difan Zou, Kai Zhu, Shiwei Zhang, Yingya Zhang, Yu Liu, Xihui Liu, Hongming Shan

Генерация видео стремительно эволюционирует от односегментного синтеза к сложным многосегментным аудио-видео (MSAV) нарративам, чтобы соответствовать требованиям реальных приложений. Однако оценка таких передовых моделей остается фундаментальной проблемой. Существующие бенчмарки ограничены по охвату и разнообразию данных, а также полагаются на жесткие конвейеры оценки, что препятствует систематической и надежной оценке современных MSAV-моделей. Для устранения этих пробелов мы представляем MSAVBench — первый всеобъемлющий бенчмарк и адаптивную гибридную систему оценки для многосегментной генерации аудио и видео. Наш бенчмарк охватывает четыре ключевых измерения: видео, аудио, сегмент и референс, включая разнообразные конфигурации задач, различное количество сегментов (до 15) и сложные нереалистичные сценарии. Предложенная система оценки повышает надежность за счет механизма адаптивной самокоррекции для сегментации шотов, покомпонентных рубрик для субъективных метрик и извлечения доказательств на основе инструментов для сложных суждений. Кроме того, MSAVBench достигает высокой согласованности с человеческими оценками, демонстрируя ранговая корреляция Спирмена на уровне 91,5%. Наш систематический анализ 19 современных моделей с закрытым и открытым исходным кодом показывает, что текущие системы по-прежнему испытывают трудности с контролем на уровне режиссера и тонкой аудиовизуальной синхронизацией, в то время как модульные или агентные конвейеры генерации предлагают многообещающий путь к сокращению разрыва между моделями с открытым и закрытым исходным кодом. Мы планируем опубликовать данные бенчмарка и код оценки для поддержки будущих исследований.

Интерактивное оценивание требует дизайн-науки.
Interactive Evaluation Requires a Design Science

May 18

ByKeyang Xuan, Peiyang Song, Pan Lu, Pengrui Han, Wenkai Li, Zhenyu Zhang, Zexue He, Wenyue Hua, Manling Li, Jiaxuan You, Adrian Weller, Yizhong Wang, Jiaxin Pei

Оценка искусственного интеллекта претерпевает структурные изменения. Большие языковые модели (LLM) всё чаще развёртываются как системы, действующие во времени через инструменты, среды, пользователей и других агентов, тогда как многие практики оценки по-прежнему наследуют допущения, характерные для бенчмарков, ориентированных на отдельные ответы (например, фиксированные входные данные, изолированные выходные данные и суждения об исходе, которые можно вынести на основании одного ответа). Научное сообщество начало создавать интерактивные бенчмарки, однако полученная картина фрагментирована: бенчмарки различаются по тому, какие артефакты взаимодействия они допускают, как оцениваются траектории и какие утверждения их результаты позволяют обосновать. В данной позиционной статье утверждается, что интерактивную оценку следует рассматривать как самостоятельную парадигму оценки, а не просто как новое семейство бенчмарков для агентов. Простое заимствование предыдущих парадигм оценки недостаточно. Мы определяем оценку как автономное отображение свидетельств в суждения и показываем, что интерактивная оценка изменяет обе стороны этого отображения: свидетельства становятся траекториями, порождёнными взаимодействием, а процедура оценки должна оценивать процесс, восстанавливаемость, координацию, устойчивость и производительность на уровне системы. Основываясь на этом определении, мы предлагаем двухосевую таксономию, выводим принципы проектирования и стандарты отчётности, рассматриваем репрезентативные сценарии и анализируем, как давние проблемы оценки вновь проявляются на уровне траекторий.

CEPO: RLVR-самодистилляция с использованием контрастивной оптимизации политики на основе свидетельств
CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization

May 19

ByAhmed Heakl, Abdelrahman M. Shaker, Youssef Mohamed, Rania Elbadry, Omar Fetouh, Fahad Shahbaz Khan, Salman Khan

Когда модель генерирует правильное решение в рамках обучения с подкреплением с проверяемыми вознаграждениями (RLVR), каждый токен получает один и тот же сигнал вознаграждения независимо от того, был ли он решающим шагом рассуждения или грамматическим заполнителем. Естественным исправлением является обусловливание модели правильным ответом в качестве учителя, что позволяет идентифицировать токены, которые она сгенерировала бы иначе, если бы знала ответ. Предыдущие работы показывают, что это либо искажает обучение за счет утечки ответа в градиент, либо дает слабый сигнал, который не может отличить решающие шаги от заполнителей, поскольку оба выглядят одинаково неожиданными по сравнению с базовым уровнем модели. Мы предлагаем Контрастивную оптимизацию политики на основе свидетельств (CEPO), которая задает более точный вопрос на каждом токене: не просто «поддерживает ли правильный ответ этот токен?», но «поддерживает ли его правильный ответ, в то время как неправильный ответ отвергает его?» Токен, удовлетворяющий обоим условиям, является подлинным шагом рассуждения; токен, не удовлетворяющий ни одному, — заполнителем. Учитель-неправильный ответ конструируется из отвергнутых прогонов, уже присутствующих в обучающем батче, что не требует дополнительных затрат на семплирование. Мы доказываем, что CEPO наследует все структурные гарантии безопасности предыдущего уровня техники, при этом строго уточняя вознаграждение на решающих токенах, причем улучшение исчезает именно на позициях заполнителей. Эмпирически CEPO достигает средней точности 43,43% и 60,56% на пяти мультимодальных бенчмарках математических рассуждений при масштабе 2B и 4B соответственно, по сравнению с 41,17% и 57,43% для GRPO при идентичных бюджетах обучения. Методы самодистилляции с выравниванием распределений (OPSD, SDPO) показывают результаты ниже необученного базового уровня, что эмпирически подтверждает утечку информации, предсказанную нашей теорией. Наш код доступен по адресу https://github.com/ahmedheakl/CEPO.

SENSE: Спутниковый энергетический синтез для устойчивой окружающей среды
SENSE: Satellite-based ENergy Synthesis for Sustainable Environment

May 18

ByKailai Sun, Mingyi He, Heye Huang, Can Rong, Alok Prakash, Baoshen Guo, Shenhao Wang, Jinhua Zhao

Городское моделирование энергопотребления зданий (Urban Building Energy Modeling, UBEM) играет ключевую роль в достижении Целей устойчивого развития ООН 7 и 11. Несмотря на значительные успехи существующих исследований, основанных на спутниковых снимках и глубоком обучении, остаётся ряд проблем: большинство существующих работ носят предсказательный характер и не отражают генеративную природу городского планирования; хотя генеративный ИИ и диффузионные модели получили взрывное развитие в области спутниковых изображений, они лишены генерации функциональных характеристик города (например, энергетического слоя); в-третьих, существует ограниченное количество согласованных высококачественных данных о потреблении энергии зданиями с высоким разрешением, сопоставленных со спутниковыми снимками. В данной работе мы предлагаем SENSE (Satellite-based ENergy Synthesis for Sustainable Environment) — единую генеративную структуру UBEM, которая совместно синтезирует реалистичные спутниковые снимки городов и согласованные с ними высококачественные карты энергопотребления и высоты зданий. Опираясь на дорожные сети и показатели плотности городской застройки, SENSE, основанный на управляемой диффузионной модели, использует знания, полученные большими моделями зрения, для генерации информации о потреблении энергии и высоте зданий (аннотаций) в скрытом пространстве. Эксперименты в четырёх городах (Нью-Йорк, Бостон, Лион, Пусан) демонстрируют, что SENSE достигает высокой визуальной точности и сильной физической согласованности, удовлетворяя метрикам стандарта ASHRAE. Результаты показывают, что SENSE способен генерировать достаточное количество аннотированных синтетических данных, используя менее 20% размеченных энергетических данных, что повышает точность последующего предсказания на 10% по показателю IoU. По сравнению с современными методами прогнозирования городского энергопотребления SENSE значительно снижает ошибку прогноза (на 3–11% по NMBE и на 1–9% по CVRMSE). Данное исследование предлагает энергоэффективное решение для городского планирования и физической генерации в области городской науки, энергетики и строительства. Набор данных и код: https://huggingface.co/datasets/skl24/MUSE и https://github.com/kailaisun/GenAI4Urban-Energy/.

Видеомодели могут рассуждать с помощью верифицируемых вознаграждений
Video Models Can Reason with Verifiable Rewards

May 14

ByTinghui Zhu, Sheng Zhang, James Y. Huang, Selena Song, Xiaofei Wen, Yuankai Li, Hoifung Poon, Muhao Chen

Видеодиффузионные модели достигли значительного прогресса в перцептивном реализме и временной согласованности, однако они по-прежнему оптимизированы в первую очередь для правдоподобной генерации, а не для проверяемых рассуждений. Это ограничение особенно ярко проявляется в задачах, где сгенерированные видео должны удовлетворять явным пространственным, временным или логическим ограничениям. Вдохновившись ролью обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) в ориентированных на рассуждение языковых моделях, мы представляем VideoRLVR — практичный рецепт для оптимизации видеодиффузионных моделей с помощью правил-ориентированной обратной связи. VideoRLVR формулирует видеорассуждение как генерацию верифицируемых визуальных траекторий и включает в себя базовый оптимизационный подход SDE-GRPO, плотные декомпозированные вознаграждения и стратегию фокусировки на ранних шагах (Early-Step Focus) для эффективного обучения. Стратегия фокусировки на ранних шагах ограничивает оптимизацию политики начальной фазой удаления шума, сокращая время обучения примерно на 40% при сохранении производительности. Мы оцениваем VideoRLVR на задачах Maze, FlowFree и Sokoban — трех процедурно-генерируемых доменах с объективными критериями успеха. Во всех этих задачах VideoRLVR последовательно превосходит базовые модели, обученные с помощью управляемого дообучения, причем плотные декомпозированные вознаграждения особенно важны в сценариях с низкой долей успешных исходов. Наша модель, оптимизированная с помощью RL, также превосходит оцениваемые проприетарные и открытые модели генерации видео на этих бенчмарках проверяемых рассуждений и на внемагистральных тестах. Эти результаты позволяют предположить, что верифицируемое RL способно перевести видеомодели от перцептивной имитации к более надёжному правилам-согласованному визуальному рассуждению.

PixVerve: Продвижение нативной генерации UHR-изображений до 100 МП с помощью крупномасштабного высококачественного набора данных
PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset

May 19

ByHaojun Chen, Haoyang He, Chengming Xu, Qingdong He, Junwei Zhu, Yabiao Wang, Zhucun Xue, Xianfang Zeng, Zhennan Chen, Xiaobin Hu, Hao Zhao, Yong Liu, Jiangning Zhang, Dacheng Tao

Модели генерации изображений по текстовому описанию (Text-to-Image, T2I) недавно достигли заметного прогресса в разрешениях около 1К и 2К. В связи с растущей потребностью в более качественном визуальном опыте и стремительным развитием технологий обработки изображений значительно возрос спрос на генерацию изображений сверхвысокого разрешения (Ultra-High-Resolution, UHR). Однако создание UHR-изображений сопряжено с серьезными трудностями из-за нехватки и сложности контента высокого разрешения. В данной работе мы сначала представляем PixVerve-95K — высококачественный набор данных UHR T2I с открытым исходным кодом, созданный с помощью тщательно разработанного конвейера обработки данных. Он содержит 95 тысяч изображений в различных сценариях (каждое изображение имеет не менее 100 миллионов пикселей) и семимерные аннотации. На основе этого крупномасштабного набора данных «изображение-текст» мы делаем первый шаг в расширении различных базовых моделей T2I до нативного разрешения 100 МП с использованием трех схем обучения. Наконец, используя как традиционные метрики, так и оценки на основе мультимодальных больших языковых моделей, наш предложенный бенчмарк PixVerve-Bench устанавливает комплексный протокол оценки UHR-изображений, включающий визуальное качество и семантическое соответствие. Обширные экспериментальные результаты на нашем бенчмарке и конструктивное исследование стратегий обучения совместно дают ценные идеи для будущих прорывов.

Семантическая генеративная настройка для унифицированных мультимодальных моделей
Semantic Generative Tuning for Unified Multimodal Models

May 18

BySongsong Yu, Yuxin Chen, Ying Shan, Yanwei Li

Унифицированные мультимодальные модели (UMM) стремятся объединить визуальное понимание и визуальную генерацию в рамках единой архитектуры. Однако преобладающие парадигмы обучения независимо оптимизируют понимание с помощью разреженных текстовых сигналов, а генерацию — через плотные пиксельные цели. Такая разобщенная стратегия приводит к несогласованным пространствам представлений, изолируя визуальное понимание от генерации и препятствуя их взаимному усилению. Данная работа представляет первое систематическое исследование генеративного пост-тренинга, в котором мы формулируем иерархические визуальные задачи как генеративные прокси для преодоления изоляции в UMM. Наше эмпирическое исследование показывает, что задачи высокоуровневой семантики, особенно сегментация изображений, служат оптимальными прокси. В отличие от низкоуровневых задач, отвлекающих модели деталями текстуры, сегментация обеспечивает структурную семантику, которая значительно улучшает как восприятие, ориентированное на зрение, так и точность компоновки при генерации. Основываясь на этих выводах, мы представляем Semantic Generative Tuning (SGT) — новую парадигму, которая использует сегментацию в качестве генеративного прокси для согласования и синергии мультимодальных возможностей. Механистический анализ дополнительно демонстрирует, что SGT фундаментально улучшает линейную разделимость признаков и оптимизирует шаблон распределения внимания между визуальными и текстовыми модальностями. Обширные оценки показывают, что SGT последовательно улучшает как мультимодальное понимание, так и точность генерации в основных бенчмарках. Наш код доступен по адресу https://song2yu.github.io/SGT/.

Быстрая генерация 4D-сетки с помощью пространственно-временных цепочек внимания
Fast 4D Mesh Generation by Spatio-Temporal Attention Chains

May 19

ByDvir Samuel, Yuval Atzmon, Gal Chechik, Yoni Kasten

Генерация 4D-сеток недавно стала мощным подходом для восстановления динамической 3D-структуры из видео, однако существующие методы остаются медленными, вычислительно затратными и трудно масштабируются до более длинных последовательностей. Мы представляем подход, не требующий обучения, который ускоряет генерацию 4D-сеток, одновременно улучшая качество временных соответствий. Ключевое наблюдение заключается в том, что временные соответствия возникают внутри 4D-основы задолго до того, как сгенерированные сетки становятся визуально точными. Мы используем это с помощью общей структуры, которую называем Цепочкой пространственно-временного внимания, распространяющей информацию в пространстве и времени. Начиная с вершин на опорной сетке, цепочка отображает вершины в скрытые токены. Затем она отслеживает временные соответствия в скрытом пространстве и восстанавливает покадровые вершины с помощью внимания от скрытых к вершинам. Такая конструкция позволяет избежать дорогостоящего явного сопоставления, сохраняя детали опорной сетки, тем самым улучшая геометрию динамической сетки и временную согласованность. По сравнению с современными методами, наш подход генерирует 4D-сетку за 9 секунд, достигая 13-кратного ускорения и обеспечивая результаты более высокого качества. Более того, наш подход масштабируется до видео в 16 раз длиннее без ухудшения качества сетки. Помимо генерации, улучшенные соответствия обеспечивают конкурентоспособную производительность без обучения на двух прикладных задачах: отслеживании 2D-объектов и 4D-отслеживании. Мы также показываем, что наш подход обеспечивает надежную оценку камеры — возможность, не поддерживаемую предыдущими методами генерации 4D-сеток.

RT-Splatting: Совместное моделирование отражения и пропускания с помощью гауссова сплаттинга
RT-Splatting: Joint Reflection-Transmission Modeling with Gaussian Splatting

May 18

ByJi Shi, Xianghua Ying, Bowei Xing, Ruohao Guo, Wenzhen Yue

3D Gaussian Splatting (3DGS) обеспечивает синтез новых видов в реальном времени с высоким визуальным качеством. Однако существующие методы испытывают трудности с полупрозрачными зеркальными поверхностями, которые демонстрируют как сложные отражения, так и четкое пропускание, часто давая размытые отражения или чрезмерно затененное пропускание. Для решения этой проблемы мы представляем RT-Splatting — фреймворк, который разделяет геометрическую занятость каждого гауссиана и его оптическую непрозрачность. Такая факторизация дает единое представление сцены «поверхность-объем» с одним набором гауссовых примитивов. Наш гибридный рендерер интерпретирует это представление и как поверхность для захвата высокочастотных отражений, и как объем для сохранения четкого пропускания. Чтобы уменьшить неоднозначность при совместной оптимизации отражения и пропускания, мы вводим «Зеркально-зависимое градиентное стробирование» (Specular-Aware Gradient Gating), которое подавляет вводящие в заблуждение градиенты из сильно зеркальных областей в ветвь пропускания, эффективно уменьшая количество отвлекающих артефактов. Эксперименты на сложных полупрозрачных сценах показывают, что RT-Splatting достигает передовой производительности, обеспечивая высококачественные отражения и четкое пропускание с рендерингом в реальном времени. Более того, наша факторизация естественным образом обеспечивает гибкое редактирование сцены. Страница проекта доступна по адресу https://sjj118.github.io/RT-Splatting.

Остатки дельта-внимания
Delta Attention Residuals

May 13

ByCheng Luo, Zefan Cai, Junjie Hu

Остаточные связи внимания заменяют стандартные аддитивные остаточные соединения обученным softmax-вниманием к выходам предыдущих слоёв, обеспечивая избирательную межуровневую маршрутизацию. Однако стандартные остаточные связи внимания по-прежнему учитывают накопленные скрытые состояния предыдущих слоёв, которые обладают высокой избыточностью. Мы показываем, что эта избыточность приводит к коллапсу маршрутизации в более глубоких слоях: веса внимания становятся малоконтрастными и приближаются к равномерным (максимальный вес ≈ 0,2), что ограничивает способность модели выбирать информативные состояния в предыдущих слоях. Это поднимает ключевой, но малоизученный вопрос проектирования: какие послойные представления следует маршрутизировать в остаточных связях внимания? Чтобы ответить на этот вопрос, мы предлагаем дельта-остаточные связи внимания (Delta Attention Residuals), которые учитывают дельты — изменения, вносимые каждым подслоем (v_i = h_{i+1} - h_i), — вместо накопленных состояний. Дельта-представления структурно разнообразны и дают распределения внимания с более высоким контрастом (максимальный вес ≈ 0,6), что позволяет более избирательно и эффективно маршрутизировать информацию между слоями. Этот принцип применим как на уровне отдельного подслоя, так и на уровне блока. На всех протестированных масштабах (от 220M до 7,6B) дельта-остаточные связи внимания стабильно превосходят как стандартные остатки, так и остаточные связи внимания, обеспечивая прирост по перплексии на валидации в 1,7–8,2%. Дельта-остаточные связи внимания также позволяют преобразовывать предварительно обученные контрольные точки в дельта-остаточные связи внимания с помощью стандартного дообучения. Код доступен по адресу: https://github.com/wdlctc/delta-attention-residuals-code.

Преодоление катастрофического забывания в визуальном непрерывном обучении с помощью дообучения с подкреплением
Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning

May 10

ByMeng Lou, Hanzhong Guo, Linwei Chen, Yizhou Yu

Недавние исследования показывают, что уточнение с подкреплением (Reinforcement Fine-Tuning, RFT) по своей природе более устойчиво к катастрофическому забыванию, чем уточнение с учителем (Supervised Fine-Tuning, SFT). Однако остается открытым вопрос, способен ли RFT (например, GRPO) эффективно преодолевать забывание в сложных задачах непрерывного визуального обучения, таких как инкрементное обучение классов (class-incremental learning, CIL) и инкрементное обучение доменов (domain-incremental learning, DIL). В ходе пилотного исследования мы подтверждаем, что, хотя RFT стабильно превосходит SFT, он все же страдает от существенного забывания. Эмпирически мы связываем это узкое место с агностицизмом дрейфа на уровне траекторий: среди кандидатов-траекторий, получающих одинаковые вознаграждения за задачу, расхождение Кульбака–Лейблера с политикой предыдущей задачи существенно варьируется, что сильно коррелирует с катастрофическим забыванием при последовательном решении задач. Основываясь на этом наблюдении, мы предлагаем оптимизацию политики с учетом удержания знаний (Retention-aware Policy Optimization, RaPO) – простой, но эффективный метод RFT, который явно смягчает забывание путем формирования вознаграждения на уровне траекторий. В частности, RaPO включает два ключевых компонента: (1) награду за удержание (Retention Reward), преобразующую дрейф распределения на уровне траекторий в непрерывный сигнал вознаграждения, который отдает предпочтение траекториям, сохраняющим знания, внутри каждой группы; (2) нормализацию преимущества между задачами (Cross-Task Advantage Normalization, CTAN), поддерживающую устойчивое экспоненциальное скользящее среднее статистик вознаграждения на границах задач для стабилизации процесса оптимизации в ходе непрерывного обучения. Используя свободную текстовую генерализацию мультимодальных больших языковых моделей (MLLMs), мы всесторонне оцениваем RaPO в пяти конфигурациях непрерывного визуального обучения. Обширные эксперименты демонстрируют, что RaPO достигает ведущих показателей, существенно снижая катастрофическое забывание при сохранении высокой пластичности. Насколько нам известно, эта работа представляет собой первое систематическое исследование RFT в контексте непрерывного визуального обучения и предлагает идеи, которые, как мы надеемся, вдохновят будущие исследования.

PEEK: Контекстная карта как ориентационный кэш для агентов LLM с длинным контекстом
PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents

May 19

ByZhuohan Gu, Qizheng Zhang, Omar Khattab, Samuel Madden

Агенты на основе больших языковых моделей (БЯМ) всё чаще работают с длинными и повторяющимися внешними контекстами, такими как коллекции документов и репозитории кода. При многократных вызовах существующие подходы сохраняют либо траекторию агента, пассивный доступ к исходным материалам, либо стратегии на уровне задач. Ни один из них не сохраняет то, что, по нашему мнению, наиболее необходимо для повторяющихся рабочих нагрузок в одном и том же контексте: воспроизводимые ориентирующие знания о самом повторяющемся контексте (например, что он содержит, как организован, какие сущности, константы и схемы исторически оказывались полезными). Мы представляем PEEK — систему, которая кэширует и поддерживает эти ориентирующие знания в виде карты контекста: небольшого артефакта фиксированного размера в промпте агента, дающего ему постоянный «взгляд» на внешний контекст. Карта поддерживается программируемой политикой кэширования из трёх модулей: Дистиллятор, извлекающий переносимые знания из сигналов времени вывода; Картограф, преобразующий их в структурированные правки; и Вытеснитель, основанный на приоритетах и обеспечивающий соблюдение фиксированного токенового бюджета. В задачах рассуждения на длинном контексте и агрегации информации PEEK превосходит сильные базовые модели на 6,3–34,0%, используя при этом на 93–145 меньше итераций и в 1,7–5,8 раза снижая затраты по сравнению с современным фреймворком обучения на промптах ACE. В обучении контексту PEEK улучшает уровень решения задач и точность по рубрикам на 6,0–14,0% и 7,8–12,1% соответственно при затратах в 1,4 раза ниже, чем ACE. Эти улучшения обобщаются на различные языковые модели и архитектуры агентов, включая OpenAI Codex — производственного агента для кодирования. В совокупности эти результаты показывают, что карта контекста помогает агентам БЯМ при работе с длинным контекстом точнее и эффективнее взаимодействовать с повторяющимися внешними контекстами.

Меньше черновиков, больше извлечения: гибридное построение дерева для спекулятивного декодирования
Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding

May 19

ByYuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang

Спекулятивное декодирование (СД) ускоряет вывод больших языковых моделей, используя парадигму «сначала черновик, затем верификация». Для максимизации частоты принятия недавние методы строят обширные деревья черновиков, что, к сожалению, приводит к значительным накладным расходам пропускной способности видеопамяти и вычислений, которые становятся узким местом для сквозного ускорения. Хотя обрезка по динамической глубине может уменьшить эту задержку за счет удаления малозначимых ветвей, она также отбрасывает потенциально валидные кандидаты, не позволяя частоте принятия достичь верхней границы, свойственной плотным деревьям. В данной работе мы выявляем критическую возможность в распределении ресурсов: переход от плотного составления черновиков к разреженному высвобождает значительный вычислительный бюджет. Чтобы преодолеть этот компромисс по Парето, мы представляем Graft — компенсационную схему, объединяющую обрезку и извлечение как взаимодополняющие операции. Обрезка предоставляет достаточный бюджет для извлечения, в то время как извлечение компенсирует потерю покрытия, вызванную обрезкой, и восстанавливает длину принятых токенов. Используя последовательный механизм «сначала обрезка, затем прививка», Graft присоединяет высокопредсказуемые извлеченные токены в позиции, освобожденные обрезкой, заполняя топологические пробелы с почти нулевыми накладными расходами. Graft полностью не требует обучения и не вносит потерь. Комплексные оценки показывают, что Graft устанавливает новую границу Парето в различных практических сценариях развертывания, включая генерацию короткого контекста, генерацию длинного контекста и крупномасштабные модели. На бенчмарках с коротким контекстом он достигает ускорения до 5,41 раза и повышает среднее ускорение по сравнению с EAGLE-3 до 21,8% на крупномасштабной модели Qwen3-235B. Мы также предоставляем предварительное исследование применения Graft к парадигме блочного черновика в стиле DFlash, предлагая первые свидетельства и идеи для расширения прививки за пределы авторегрессионных деревьев черновиков.

TideGS: Масштабируемое обучение более миллиарда примитивов трехмерного гауссова сплаттинга с помощью out-of-core оптимизации
TideGS: Scalable Training of Over One Billion 3D Gaussian Splatting Primitives via Out-of-Core Optimization

May 19

ByChonghao Zhong, Linfeng Shi, Hua Chen, Tiecheng Sun, Hao Zhao, Binhang Yuan, Chaojian Li

Обучение 3D-гауссова разбрызгивания (3DGS) в масштабе миллиардов примитивов принципиально ограничивается памятью: каждый гауссов примитив несёт большой вектор атрибутов, а совокупная таблица параметров быстро превышает объём памяти GPU, что ограничивает существующие системы десятками миллионов гауссианов на стандартном однопроцессорном оборудовании с GPU. Мы отмечаем, что обучение 3DGS по своей природе разрежено и обусловлено траекторией: на каждой итерации активируются только те гауссианы, которые видны из текущего пакета камер, поэтому память GPU может служить кэшем рабочего набора, а не постоянным хранилищем параметров. Основываясь на этом наблюдении, мы представляем TideGS — фреймворк для внеядерного обучения, который управляет параметрами в иерархии SSD-ЦПУ-GPU с помощью трёх синергетических методов: блочно-виртуализированной геометрии для пространственной локальности, согласованной с SSD; иерархического асинхронного конвейера для перекрытия операций ввода-вывода с вычислениями; и траекторно-адаптивной дифференциальной потоковой передачи, которая переносит между итерациями только инкрементальные дельты рабочего набора. Эксперименты показывают, что TideGS позволяет обучать модели с более чем миллиардом гауссианов на одном GPU объёмом 24 ГБ, достигая наилучшего качества реконструкции среди оценённых однопроцессорных базовых решений для крупномасштабных сцен, превосходя предыдущие внеядерные методы (например, ~100 млн гауссианов) и стандартное обучение в памяти (например, ~11 млн гауссианов).

Не каждая рубрика обучает одинаково: Вознаграждения по рубрикам, учитывающие политику, для RLVR
Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

May 19

ByUtkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He

Обучение с подкреплением на основе проверяемых вознаграждений сделало пост-обучение высокоэффективным в тех случаях, когда корректность может быть проверена автоматически. Однако многие важные поведения модели требуют одновременного удовлетворения нескольких качественных критериев. Вознаграждения на основе рубрик решают эту задачу, оценивая критерии, специфичные для запроса, и агрегируя их в скалярное вознаграждение. Тем не менее, стандартные статические агрегации смешивают назначенную человеком важность критерия с его текущей полезностью в качестве сигнала оптимизации. Мы показываем, что это допущение нарушается в рубричном RL: многие важные критерии уже насыщены или в настоящее время недостижимы, в то время как критерии, различающие прогоны, не обязательно являются теми, которые имеют наибольшие человеческие веса. Мы представляем POW3R — фреймворк вознаграждений на основе рубрик, учитывающий политику, который сохраняет человеческие веса и баланс категорий в качестве цели рубрики, одновременно адаптируя веса вознаграждений на уровне критериев в процессе обучения. POW3R использует контраст на уровне прогонов, чтобы подчеркнуть критерии, которые в настоящее время разделяют выходы политики, делая вознаграждение GRPO более информативным без изменения лежащей в основе цели оценки. На трех базовых политиках на двух наборах данных, охватывающих мультимодальные и только текстовые конфигурации, POW3R выигрывает в 24 из 30 сравнений по базовой политике/метрике, улучшая как среднее вознаграждение по рубрике, так и строгое выполнение (долю запросов, ответы на которые удовлетворяют всем требуемым критериям рубрики) по сравнению с ванильным GRPO с вознаграждениями на основе рубрик, и достигает того же плато за в 2,5–4 раза меньше шагов обучения. Вознаграждения на основе рубрик, следовательно, должны различать то, что должно иметь значение в окончательном ответе, и то, что может обучить текущую политику.

Шум Матерна для независимого от триангуляции согласования потоков на сетках
Matérn Noise for Triangulation-Agnostic Flow Matching on Meshes

May 19

ByTianshu Kuai, Arman Maesumi, Daniel Ritchie, Noam Aigerman

Данная работа решает задачу обучения генерации сигналов на треугольных сетках без привязки к конкретной триангуляции, что означает возможность применения обученной модели к различным сеткам и триангуляциям. Практически, в работе адаптируется парадигма согласования потоков (FM) к сеточному контексту, не зависящему от триангуляции. Теоретически предлагается конкретное распределение шума, не зависящее от триангуляции, для использования в процессе шумоподавления модели FM. В то время как для изображений разработка распределений шума обычно тривиальна, создание распределения, независимого от триангуляции, оказывается гораздо более сложной задачей. Мы формулируем математическое определение независимости распределений от триангуляции через их спектр. Затем мы показываем, что дискретизация определенного гауссовского случайного поля, называемого процессом Матерна, обладает этими желаемыми свойствами и предоставляет простой и эффективный алгоритм выборки. Мы используем его в качестве модели шума и адаптируем FM к настройке, независимой от триангуляции, применяя современный подход для изучения сигналов на сетках в градиентной области — PoissonNet — в качестве шумоподавителя. Мы проводим эксперименты на сложных задачах, таких как выборка упругих состояний покоя и генерация поз гуманоидов. Показано, что наш метод способен давать высокореалистичные результаты для сеток с более чем миллионом треугольников, значительно превосходя современное состояние дел по качеству и разнообразию.

Zero-Shot Sim-to-Real обучение роботов: исследование ловкого манипулирования для реактивной ловли
Zero-Shot Sim-to-Real Robot Learning: A Dexterous Manipulation Study on Reactive Catching

May 10

ByKejia Ren, Gaotian Wang, Andrew S. Morgan, Kaiyu Hang

Ловкое манипулирование требует интенсивного физического моделирования и чрезвычайно чувствительно к ошибкам моделирования и шуму восприятия, что делает перенос из симуляции в реальность (sim-to-real) запретительно сложным. Для повышения устойчивости обученных политик к таким задачам обычно используется рандомизация домена (Domain Randomization, DR), однако традиционная DR рандомизирует один экземпляр на эпизод, обеспечивая весьма ограниченное знакомство с изменчивостью динамики реального мира. В связи с этим мы предлагаем метод Domain-Randomized Instance Set (DRIS), который одновременно представляет и распространяет набор рандомизированных экземпляров, обеспечивая более полную аппроксимацию неопределенной динамики и позволяя политикам обучаться действиям, учитывающим множество возможных исходов. Подкрепленные теоретическим анализом, мы показываем, что DRIS приводит к более устойчивым политикам и снижает потребность в донастройке в реальном мире даже при скромном числе экземпляров (например, 10). Мы демонстрируем это на сложной задаче реактивной ловли. В отличие от традиционных установок для ловли, использующих конечные эффекторы, предназначенные для механической стабилизации объекта (например, изогнутые или охватывающие поверхности), наша система использует плоскую пластину, которая не обеспечивает пассивной стабилизации, что делает задачу крайне чувствительной к шуму и требующей быстрых реактивных движений. Обученные политики демонстрируют высокую устойчивость к неопределенностям и обеспечивают надежный zero-shot перенос из симуляции в реальность.

Рассуждение на основе кода для малых языковых моделей: оценка исполняемых каркасов MCQA
Code-Guided Reasoning for Small Language Models: Evaluating Executable MCQA Scaffolds

May 12

ByPrateek Biswas, Dhaval Patel, Vedant Khandelwal, Shuxin Lin, Amit Sheth

Многовариантные бенчмарки для вопросно-ответных задач (MCQA) обычно оценивают малые языковые модели (SLM) в качестве прямых отвечающих, однако развернутые системы на основе языковых моделей всё чаще полагаются на внешние каркасы, такие как инструменты, код и повторные вызовы модели. Мы представляем Code-Guided Reasoning (CGR) — протокол оценки и ресурс сгенерированных программ для измерения того, когда исполняемые каркасы рассуждений улучшают производительность SLM в задачах MCQA. CGR стандартизирует шесть компонентов: нормализованный интерфейс элементов, промпт для прямого решателя, промпт для генератора, каркас на Python, вспомогательные функции для вызова решателя и извлечения ответов, а также трёхканальную запись результатов. На 20 498 оставленных строках результатов из локально подготовленного набора MCQA и шести моделях-решателях, зарегистрированных в метаданных, наблюдаемое разбиение с ненулевым базовым уровнем показывает 66,21% макро-ассистированной точности против 38,11% прямой точности, что составляет разницу в +28,10 процентных пункта с парным бутерстроп-интервалом [20,32; 36,43]. При более строгом пороге Ab > 30% прямого сигнала макро-разница составляет +14,11 пункта. Эти оценки являются описательными. Ассистированный вывод требует большего бюджета вызовов решателя, извлечение ответов является хрупким, Time-MQA содержит наблюдаемые регрессии, а некоторые сгенерированные программы нарушают инструкцию о запрете жесткого кодирования. CGR предоставляет пакет трассировки, необходимый для интерпретации этих результатов, включая прямые, ассистированные и сгенерированные со стороны генератора ответы, определения разбиений, сгенерированные программы, метаданные ответов и аудиты.

Запоминание контекста для эффективной генерации длинного контекста
Context Memorization for Efficient Long Context Generation

May 18

ByYasuyuki Okoshi, Hao Mark Chen, Guanxi Lu, Hongxiang Fan, Masato Motomura, Daichi Fujiki

Современные приложения больших языковых моделей (LLM) все чаще полагаются на длинные обусловливающие префиксы для управления поведением модели на этапе инференса. Хотя инференс с дополнением префикса эффективен, он сопряжен с двумя структурными ограничениями: i) влияние префикса ослабевает по мере генерации, и ii) вычисление внимания к префиксу масштабируется линейно с его длиной. Существующие подходы либо оставляют префикс в механизме внимания, сжимая его, либо интернализируют его в параметры модели через градиентное обучение. Первый вариант по-прежнему требует обработки префикса при инференсе, а второй требует интенсивного обучения и плохо подходит для обновления префикса. Для решения этих проблем мы предлагаем память состояний внимания — бестренировочный подход, который экстернализирует префикс в легковесную память на основе поиска, содержащую предвычисленные состояния внимания между токенами префикса и запроса. На ManyICLBench с LLaMA-3.1-8B наш метод улучшает точность по сравнению с обучением в контексте при бюджете памяти от 1K до 8K, одновременно снижая задержку внимания в 1,36 раза при 8K, а на эталонном тесте NBA превосходит производительность RAG с полным вниманием, используя лишь 20% его занимаемой памяти.

оптимизируй_что_угодно: универсальный API для оптимизации любого текстового параметра
optimize_anything: A Universal API for Optimizing any Text Parameter

May 19

ByLakshya A Agrawal, Donghyun Lee, Shangyin Tan, Wenjie Ma, Karim Elmaaroufi, Rohit Sandadi, Sanjit A. Seshia, Koushik Sen, Dan Klein, Ion Stoica, Joseph E. Gonzalez, Omar Khattab, Alexandros G. Dimakis, Matei Zaharia

Может ли одна система оптимизации на основе LLM сравниться со специализированными инструментами в принципиально разных областях? Мы показываем, что когда задачи оптимизации формулируются как улучшение текстового артефакта, оцениваемого с помощью функции оценки, одна система оптимизации на основе ИИ, поддерживающая однозадачный поиск, многозадачный поиск с переносом между задачами и обобщение на невидимые входные данные, достигает результатов на уровне лучших мировых достижений в шести различных задачах. Наша система находит архитектуры агентов, которые почти утраивают точность Gemini Flash в ARC-AGI (с 32.5% до 89.5%), находит алгоритмы планирования, сокращающие облачные затраты на 40%, генерирует ядра CUDA, из которых 87% соответствуют или превосходят PyTorch, и превосходит сообщённое решение AlphaEvolve для упаковки кругов (n=26). Абляции в трёх областях показывают, что действенная дополнительная информация обеспечивает более быструю сходимость и значительно более высокие итоговые оценки, чем обратная связь только по оценке, и что многозадачный поиск превосходит независимую оптимизацию при эквивалентном бюджете на задачу за счёт переноса между задачами, причём преимущества масштабируются с увеличением числа связанных задач. В совокупности мы впервые показываем, что текстовая оптимизация с помощью поиска на основе LLM является парадигмой решения задач общего назначения, объединяющей задачи, традиционно требующие алгоритмов, специализированных для конкретной предметной области, в рамках единой структуры. Мы публикуем optimize_anything с поддержкой нескольких бэкендов в открытом доступе в рамках проекта GEPA по адресу https://github.com/gepa-ai/gepa.

Где возникает сигнал авторства в энкодерных языковых моделях?
Where Does Authorship Signal Emerge in Encoder-Based Language Models?

May 19

ByFrancis Kulumba, Guillaume Vimont, Laurent Romary, Florian Cafiero

Модели атрибуции авторства, дообученные на одном и том же предобученном энкодере, данных и функции потерь, могут различаться по производительности в четыре раза в зависимости только от их механизма оценки. Мы используем инструменты механистической интерпретируемости для объяснения этого разрыва. Стилистические признаки, такие как длина слов, плотность пунктуации и частота служебных слов, одинаково доступны на каждом слое в каждой модели, включая стандартный контрольный энкодер, следовательно, разрыв не обусловлен качеством представлений. Вместо этого причинное вмешательство показывает, что оценщик определяет, на каком уровне энкодер консолидирует сигнал авторства. Усредняющий пулинг заставляет консолидацию происходить на ранних и средних слоях, тогда как позднее взаимодействие откладывает ее на более поздние слои. Мы также выводим это различие из градиентной структуры каждого оценщика, а динамика обучения выявляет различные траектории обучения, следующие из этого различия.

ESI-Bench: К воплощенному пространственному интеллекту, замыкающему цикл восприятия-действия
ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

May 18

ByYining Hong, Jiageng Liu, Han Yin, Manling Li, Leonidas Guibas, Li Fei-Fei, Jiajun Wu, Yejin Choi

Пространственный интеллект разворачивается через цикл восприятия-действия: агенты совершают действия для получения наблюдений и рассуждают о том, как наблюдения изменяются в зависимости от действия. Вместо пассивной обработки того, что видимо, они активно раскрывают то, что скрыто — окклюдированную структуру, динамику, вместимость и функциональность, которые невозможно определить только путем пассивного сенсорного восприятия. Мы выходим за рамки предыдущих формулировок пространственного интеллекта, предполагающих оракульские наблюдения, переосмысливая наблюдателя как действующее лицо. Мы представляем ESI-BENCH — всеобъемлющий бенчмарк воплощенного пространственного интеллекта, охватывающий 10 категорий задач и 29 подкатегорий, построенный на OmniGibson и основанный на фундаментальных системах познания Спелке. Агенты должны решать, какие способности применять — восприятие, локомоцию и манипуляцию — и как их последовательно использовать для активного накопления релевантных задаче свидетельств. Мы проводим обширные эксперименты с современными мультимодальными большими языковыми моделями (MLLM) и обнаруживаем, что активное исследование значительно превосходит пассивные аналоги: агенты спонтанно открывают возникающие пространственные стратегии без явных инструкций, в то время как случайный мультивзгляд часто добавляет шум, а не сигнал, несмотря на потребление гораздо большего количества изображений. Большинство неудач проистекает не из слабого восприятия, а из слепоты к действиям: неудачный выбор действий ведет к плохим наблюдениям, которые, в свою очередь, вызывают каскад ошибок. Хотя явная 3D-привязка стабилизирует рассуждение в задачах, чувствительных к глубине, несовершенное 3D-представление оказывается более вредным, чем 2D-базовые модели, искажая пространственные отношения. Исследования с участием людей дополнительно показывают, что, в отличие от людей, которые ищут опровергающие точки обзора и пересматривают убеждения при противоречии, модели преждевременно принимают решения с высокой уверенностью независимо от качества свидетельств, выявляя метакогнитивный разрыв, который не может преодолеть ни лучшее восприятие, ни более воплощенное взаимодействие по отдельности.

Стадийно-адаптивный выбор токенов для эффективных всережимных LLM
Stage-adaptive Token Selection for Efficient Omni-modal LLMs

May 19

ByZijie Xin, Jie Yang, Ruixiang Zhao, Tianyi Wang, Fengyun Rao, Jing Lyu, Xirong Li

Омни-модальные большие языковые модели (om-LLMs) достигают унифицированного аудиовизуального понимания путем кодирования видео и аудио во временно выровненные последовательности токенов, чередующиеся на уровне окон. Однако обработка этих плотных нетекстовых токенов на протяжении всей LLM влечет за собой значительные вычислительные накладные расходы. Хотя выбор токенов без обучения может снизить эти затраты, существующие методы либо ориентированы только на визуальные входные данные, либо сокращают токены om-LLM только перед LLM с фиксированными соотношениями по модальностям, не улавливая, как важность кросс-модальных токенов изменяется по слоям. Чтобы устранить это ограничение, мы впервые анализируем послойную зависимость токенов om-LLM. Мы обнаружили, что визуальные и аудио-зависимости следуют блочной структуре и постепенно ослабевают с глубиной, что указывает на то, что многие нетекстовые токены на поздних слоях становятся избыточными после кросс-модального слияния. Руководствуясь этим наблюдением, мы предлагаем SEATS — метод стадийно-адаптивного выбора токенов без обучения для эффективного вывода om-LLM. Перед LLM SEATS устраняет пространственно-временную избыточность посредством взвешенного по вниманию отбора с учетом разнообразия. Внутри LLM он постепенно сокращает токены между блоками и динамически распределяет бюджет удержания от временных окон к модальностям, используя оценки релевантности запросов. На поздних слоях он удаляет все оставшиеся нетекстовые токены после завершения кросс-модального слияния. Эксперименты на Qwen2.5-Omni и Qwen3-Omni показывают, что SEATS эффективно повышает эффективность вывода. При сохранении только 10% визуальных и аудио-токенов он достигает сокращения FLOPs в 9,3 раза и ускорения префилла в 4,8 раза, сохраняя 96,3% исходной производительности.

Эхо-форсинг: Фреймворк памяти сцены для генерации интерактивных длинных видео
Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation

May 15

ByMingqiang Wu, Weilun Feng, Zhefeng Zhang, Haotong Qin, Yuqi Li, Guoxin Fan, Xiaokun Liu, Zhulin An, Libo Huang, Yongjun Xu, Chuanguang Yang

Авторегрессионные модели диффузии видео обеспечивают открытую генерацию за счет локального внимания и кэширования KV. Однако существующие методы оптимизации длинных видео без обучения в основном ориентированы на стабильное расширение при одном запросе, что затрудняет обработку интерактивных сценариев, включающих переключение запросов, забывание старых сцен и воспроизведение исторических сцен. Мы определяем основное узкое место как функциональную запутанность исторических KV-состояний: стабильные якоря и недавняя динамика обрабатываются одной и той же политикой кэширования, что приводит к загрязнению устаревшим фоном, замедленной реакции на новые запросы и потере долговременной памяти. Для решения этой проблемы мы предлагаем Echo-Forcing — фреймворк памяти сцен без обучения, специально разработанный для интерактивной генерации длинных видео, с тремя основными механизмами: (1) иерархическая временная память, которая разделяет стабильные якоря, сжатую историю и недавние окна при относительном RoPE; (2) кадры воспроизведения сцен, которые сжимают исторические сцены в пространственно структурированные KV-представления для поддержки долгосрочного воспроизведения; и (3) разностное затухание памяти, которое адаптивно забывает конфликтующие токены в соответствии с расхождением между старыми и новыми сценами. На основе этих разработок Echo-Forcing единообразно поддерживает плавные переходы, жесткие склейки и воспроизведение сцен на большом расстоянии при ограниченном бюджете кэша. Обширные оценки на VBench-Long дополнительно показывают, что Echo-Forcing достигает наилучшей общей производительности как в задачах генерации длинных видео, так и в интерактивной генерации видео. Наш код опубликован по адресу https://github.com/mingqiangWu/Echo-Forcing.

Промежуточное обучение с использованием самогенерированных данных улучшает обучение с подкреплением в языковых моделях.
Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models

May 8

ByAswin RRV, Jacob Dineen, Divij Handa, Mihir Parmar, Ben Zhou, Swaroop Mishra, Chitta Baral

Эффективность обучения с подкреплением (RL) в больших языковых моделях (LLM) зависит от природы и разнообразия данных, используемых до и во время RL. В частности, задачи на рассуждение часто могут решаться несколькими способами, которые опираются на разные формы рассуждения, и знакомство только с ограниченным набором таких подходов в обучающих данных может ограничить эффективность RL. Руководствуясь этим, мы исследуем использование разнообразных самостоятельно сгенерированных данных в ходе промежуточного обучения как промежуточного этапа перед обучением RL. В частности, мы применяем фреймворк генерации данных с бутстрепингом, основанный на подходах к решению задач Джорджа Пойа, для генерации множества вариантов правильных ответов для каждого вопроса в обучающих данных, после чего проводим точную настройку. Сначала мы даем теоретический взгляд на то, как промежуточное обучение на таких данных улучшает RL, и объясняем, как обновления градиента политики могут стимулировать комбинирование нескольких подходов. Затем мы эмпирически демонстрируем, что модели, обученные с помощью RL и инициализированные нашими данными промежуточного обучения, достигают последовательных улучшений на различных бенчмарках математического рассуждения и других задачах вне распределения (OOD), таких как генерация кода и нарративное рассуждение. В целом, наше исследование показывает, что языковая модель, изучающая несколько подходов к решению задач с помощью самостоятельно сгенерированных данных, помогает последующему RL.

Ethical Hyper-Velocity (EHV): доказуемо детерминированная архитектура JIT-компилятора, учитывающего управление, для агентных систем
Ethical Hyper-Velocity (EHV): A Provably Deterministic Governance-Aware JIT Compiler Architecture for Agentic Systems

May 18

ByRiddhi Mohan Sharma

随着自主代理系统在受监管的关键基础设施中规模化部署，缺乏基于硬件的机械性机制来实施高频策略更新，构成了根本性的安全缺口。本文提出伦理超速（EHV）——一种新型架构框架，用于在运行时对人工智能治理策略进行形式化验证。与引入14-30天延迟的追溯性审计框架（如ISO/IEC 42001、NIST AI RMF）不同，EHV通过治理感知即时编译器将策略执行点（PEP）迁移至推理流水线。通过集成无冲突复制数据类型（CRDT）实现策略同步，并在可信执行环境（TEE）内采用基于周期的证明缓存，EHV实现了亚毫秒级形式确定性（SMFD）。我们通过TLA+形式化验证证明，在该系统有界运行状态空间中，不合规的代理行为在计算上不可达。我们同时证明，O(1)运行时执行能够消除部署速度与治理完整性之间的传统权衡，将治理延迟从O(天)级降至O(1)级。

CopT: Контрастивное мышление на основе текущей политики с непрерывными пространствами для общего и агентного рассуждения
CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning

May 19

ByDachuan Shi, Hanlin Zhu, Xiangchi Yuan, Wanjia Zhao, Kejing Xia, Wen Xiao, Wenke Lee

Цепочка рассуждений (CoT) представляет собой стандартный подход для извлечения способности к рассуждению из больших языковых моделей (LLM). Однако распространённая парадигма CoT рассматривает мышление как предварительное условие для ответа, что может задерживать доступ к правдоподобным ответам и приводить к излишним затратам токенов даже в тех случаях, когда модель способна определить ответ до развёрнутого мышления — такое поведение известно как перформативное рассуждение. В данной статье мы представляем CopT — переработанный конвейер рассуждений, который меняет обычный порядок мышления и ответа. Вместо того чтобы сначала думать, а затем отвечать, CopT сначала формирует черновой ответ, а затем инициирует последующее рассуждение по текущей политике, обусловленное этим черновым ответом, для рефлексии и коррекции. Чтобы оценить, следует ли доверять черновому ответу, CopT переосмысливает непрерывные эмбеддинги как контрастивные верификаторы на этапе инференса. В частности, он сопоставляет поддержку модели для одних и тех же сгенерированных токенов при входах в виде дискретных токенов и входах в виде непрерывных эмбеддингов, получая оценку обратного KL-расхождения на уровне последовательности для оценки надёжности ответа. Наш анализ показывает, что при определённых предположениях математическое ожидание этой оценки равно взаимной информации между неразрешённым скрытым состоянием и сгенерированным токеном ответа, что объясняет, почему она улавливает неопределённость, связанную с ответом, а не произвольную неопределённость скрытого состояния. Когда ответ признаётся недостаточно надёжным, CopT выполняет дальнейшее рассуждение по текущей политике, где вторая KL-оценка динамически контролирует видимость чернового ответа, сохраняя полезную частичную информацию и снижая риск быть введённым в заблуждение ненадёжным содержимым. В задачах математики, программирования и агентного рассуждения CopT повышает пиковую точность до 23% и снижает использование токенов до 57% при сопоставимой или более высокой точности, не требуя дополнительного обучения. Код доступен по адресу https://github.com/sdc17/CopT.

Выбор редакции: Оценка абстрактного намерения при редактировании изображений посредством анализа атомарных сущностей
Editor's Choice: Evaluating Abstract Intent in Image Editing through Atomic Entity Analysis

May 14

ByMor Ventura, Roy Hirsch, Yonatan Bitton, Regev Cohen, Roi Reichart

Люди естественным образом общаются с помощью абстрактных понятий, таких как «настроение». Однако современные бенчмарки по редактированию изображений в основном ориентированы на явные, буквальные команды, оставляя абстрактные инструкции в значительной степени неисследованными. В данной работе мы впервые формализуем определение и таксономию абстрактного редактирования изображений. Для оценки следования инструкциям в этой сложной области мы предлагаем Entity-Rubrics — систему, которая разбивает абстрактные правки на отдельные оценки на уровне объектов и демонстрирует высокую корреляцию с человеческими суждениями. Наряду с этой системой мы представляем AbstractEdit — первый бенчмарк, посвящённый абстрактному редактированию изображений в разнообразных реальных сценах. Оценка 11 ведущих моделей на этом наборе данных выявила фундаментальную проблему: стандартные архитектуры испытывают трудности с балансировкой между намерением и сохранением, часто впадая в недоредактирование или перередактирование. Наш анализ показывает, что для достижения значимых улучшений необходимо активно использовать расширенные текстовые кодировщики LLM и итеративное мышление. Заглядывая вперёд, наша парадигма, основанная на объектах, может быть обобщена за пределы оценки, выступая в качестве модели вознаграждения, позволяя моделям правильно интерпретировать абстрактное общение или выделять конкретные сбои в циклах критики во время тестирования. В конечном счёте, мы надеемся, что эта работа послужит ступенькой к плавному мультимодальному взаимодействию, сокращая разрыв между жёстким выполнением команд машинами и естественным, открытым способом человеческого общения.

Триггеры языкового переключения совершают латентный обход через языковые модели
Language-Switching Triggers Take a Latent Detour Through Language Models

May 18

ByFrancis Kulumba, Wissam Antoun, Théo Lasnier, Benoît Sagot, Djamé Seddah

Атаки с использованием бэкдоров на языковые модели представляют растущую угрозу безопасности, однако внутренние механизмы, с помощью которых последовательность-триггер перехватывает вычисления модели, остаются плохо изученными. Мы идентифицируем цепь, лежащую в основе бэкдора, переключающего язык, в авторегрессионной языковой модели с 8 миллиардами параметров, где трехсловный латинский триггер (девять токенов) перенаправляет вывод с английского на французский. Мы разбиваем эту цепь на три фазы: (1) распределенные головы внимания на ранних слоях собирают токены триггера в последнюю позицию последовательности; (2) результирующий сигнал распространяется через средние слои в подпространстве, ортогональном естественному направлению идентификации языка модели; (3) MLP на последнем слое преобразует этот латентный сигнал в логиты французского языка. Вся цепь проходит через последовательное узкое место в одной позиции: повреждение этой позиции на любом слое полностью нейтрализует триггер, но также снижает возможности модели. Ортогональное латентное кодирование предполагает, что защитные механизмы, которые ищут языковые сигналы в промежуточных представлениях, полностью пропустят этот триггер.

DocAtlas: Многоязычное понимание документов на более чем 80 языках
DocAtlas: Multilingual Document Understanding Across 80+ Languages

May 12

ByAhmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan

Понимание многоязычных документов остается ограниченным для языков с низкими ресурсами из-за нехватки обучающих данных и конвейеров аннотаций на основе моделей, которые сохраняют существующие предубеждения. Мы представляем DocAtlas — фреймворк, который создает высококачественные наборы данных OCR и бенчмарки, охватывающие 82 языка и 9 оценочных задач. Наши двойные конвейеры — дифференциальный рендеринг нативных документов DOCX и синтетическая генерация на основе LaTeX для письменностей справа налево — создают точные структурные аннотации в унифицированном формате DocTag, кодирующем типы макета, текста и компонентов, без использования обученных моделей для основной аннотации. Оценка 16 современных моделей выявляет постоянные пробелы в низкоресурсных письменностях. Мы показываем, что Direct Preference Optimization (DPO) с использованием эталонных данных, полученных при рендеринге, в качестве положительного сигнала обеспечивает стабильную многоязычную адаптацию, улучшая точность как внутри домена (+1,9%), так и вне домена (+1,8%) без измеримого ухудшения базового языка, тогда как контролируемая тонкая настройка ухудшает производительность вне домена до 21%. Наш лучший вариант, DocAtlas-DeepSeek, улучшает показатель на +1,7% по сравнению с самым сильным базовым уровнем.

Omni-DuplexEval: Оценка дуплексного омнимодального взаимодействия в реальном времени
Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction

May 17

ByChaoqun He, Mingyang Xiang, Yingjing Xu, Bokai Xu, Junbo Cui, Jie Zhou, Yuan Yao, Lijie Wen

Взаимодействие в реальном времени в дуплексном режиме необходимо для мультимодальных систем ИИ, работающих в реальных сценариях, где модели должны непрерывно обрабатывать потоковые входные данные и реагировать в подходящие моменты. Однако большинство существующих мультимодальных больших языковых моделей (MLLM) оцениваются в автономных условиях, когда весь видеовход обрабатывается до генерации какого-либо ответа. Хотя недавние работы начали исследовать MLLM с дуплексным взаимодействием в реальном времени, до сих пор отсутствует комплексный бенчмарк или метод автоматической оценки для такого режима. Для заполнения этого пробела мы предлагаем Omni-DuplexEval — бенчмарк для систематической оценки взаимодействия в реальном времени в дуплексном режиме. Бенчмарк состоит из двух дополняющих друг друга сценариев: (1) Описание в реальном времени, которое оценивает способность генерировать непрерывные, синхронизированные по времени ответы, отслеживающие изменяющиеся мультимодальные входные данные, и (2) Упреждающее напоминание, которое оценивает способность выявлять значимые события и реагировать в подходящие моменты. Omni-DuplexEval содержит 660 видео с детальными размеченными вручную метками и точными временными метаданными, охватывая 9 задач, основанных на реальных сценариях, где все вопросы сформулированы как открытые запросы. Мы также представляем автоматическую структуру оценки на основе использования LLM в качестве судьи, которая обеспечивает систематическую оценку путем совместного анализа соответствия ответа содержанию и времени ответа с учетом временных меток и последовательного рассуждения, достигая сильного согласия с человеческими оценками. Эксперименты с современными дуплексными MLLM выявляют существенные ограничения. Лучшая модель достигает лишь 39,6% общего показателя, а по Упреждающему напоминанию — всего 20,0%. Наш анализ выявляет две ключевые проблемы: модели с трудом балансируют между своевременными ответами и связной, целостной генерацией контента, и часто не могут определить как время ответа, так и его содержание. Мы надеемся, что наша работа будет способствовать дальнейшему прогрессу в области MLLM.

Почему модели рассуждения теряют охват? Роль данных и развилок на пути
Why Do Reasoning Models Lose Coverage? The Role of Data and Forks in the Road

May 16

ByNgoc-Hieu Nguyen, Parshin Shojaee, Phuc Minh Nguyen, Nan Zhang, Chandan K Reddy, Khoa D Doan, Rui Zhang

Недавние успехи в области больших языковых моделей привели к появлению моделей рассуждений, которые демонстрируют высокую производительность на сложных задачах благодаря специализированным процедурам тонкой настройки. Хотя эти методы надежно повышают точность pass@1, предыдущие работы отметили, что они демонстрируют поведение сжатия покрытия, при котором pass@k ухудшается по сравнению с базовой моделью. В данной статье мы исследуем сжатие рассуждений, возникающее при пост-тренировке на основе SFT. Мы предполагаем, что это поведение обусловлено свойствами данных тонкой настройки, в частности, точками принятия решений или сценариями «развилки на дороге», где модель сталкивается с неразличимыми паттернами, имеющими несколько допустимых путей рассуждений. Для проверки этой гипотезы мы разрабатываем контролируемые тематические исследования, моделирующие такие сценарии с точками принятия решений, охватывающие неразличимые узлы в ветвлениях графа и режимы рассуждений. Отслеживая динамику пост-тренировки в этих условиях, мы обнаруживаем, что феномен сжатия тесно коррелирует с распространенностью сценариев с точками принятия решений в обучающих данных. Мы также демонстрируем, что это поведение сжатия может быть частично смягчено с помощью целенаправленного синтеза данных с точками принятия решений и более систематического механизма декодирования, стимулирующего разнообразие. Наши результаты определяют факторы, связанные с данными, как ключевой драйвер сжатия в моделях рассуждений, и подчеркивают эффективность подходов, учитывающих разнообразие, в качестве рычага для его контроля.

Ошибка или особенность²: дрейф весов, разреженность активаций и спайки
Bug or Feature^2: Weight Drift, Activation Sparsity, and Spikes

May 17

ByEgor Shvetsov, Aleksandr Serkov, Shokorov Viacheslav, Redko Dmitry, Vladislav Goloshchapov, Evgeny Burnaev

Дизайн современных нейронных архитектур сложился в результате инкрементальных эмпирических решений, однако механизмы, управляющие их динамикой обучения, остаются поняты лишь частично. Мы выявляем и анализируем отрицательный дрейф весов, вызванный взаимодействием стандартных функций потерь и положительно смещённых функций активации. Мы доказываем, что при использовании функции потерь MSE или кросс-энтропии градиент по отношению к положительным преактивациям является неотрицательным в ожидании на этапе инициализации, что приводит к смещению последующих весов в сторону отрицательных значений в начале обучения. Этот дрейф является внутренним свойством оптимизации, а не данных, и сохраняется при различных архитектурах (MLP, ResNet, ViT, GPT-nano, MP-SENe) и асимметричных функциях активации (ReLU, GELU, SiLU). В сочетании с ReLU дрейф весов приводит к разреженности активаций, достигающей 90% в GPT-nano. Мы характеризуем компромисс между разреженностью и точностью для 79 конфигураций и выявляем резкий обрыв точности при разреженности активаций выше ~70%. Хотя ReLU² достигает хорошего соотношения разреженности и точности в GPT-nano, он патологически усиливает выявленные пики активаций в промежуточных слоях трансформера. Клиппирование решает эту проблему, сохраняя репрезентативные преимущества возведения в квадрат: усечённая версия ReLU² превосходит свою неограниченную версию, а GELU² достигает наименьшей функции потерь на валидации в GPT-nano. Код доступен по адресу https://github.com/On-Point-RND/BugOrFeature.

Будьте добры, перепишите: безвредные проекции с помощью переписывания защищают от атак отравления данных LLM
Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks

May 18

ByJohn T. Halloran, Noopur S. Bhatt

Большие языковые модели (LLM) крайне подвержены бэкдор-атакам (BA), при которых обучающие выборки отравляются с использованием основанного на триггерах вредоносного содержимого. Кроме того, существующие методы защиты оказались неэффективными при обширном тестировании на различных шаблонах BA. Для более эффективного противодействия BA мы исследуем возможность использования перезаписи LLM в качестве упреждающей защиты от отравления данными. Сначала мы теоретически показываем, что когда перезапись LLM использует открытые бенчмарки с безопасными примерами – так называемая безопасная перезапись с открытой книгой (OBBR) – вероятность того, что результат перезаписи будет безопасным, строго выше, чем при перезаписи с закрытой книгой. Таким образом, OBBR нейтрализует вредоносное содержимое, проецируя обучающие выборки в пространство безопасных подсказок. Затем мы демонстрируем, что, в отличие от предыдущих методов защиты, OBBR эффективно смягчает большое количество существующих BA: на пяти известных BA и четырех широко используемых LLM OBBR повышает показатели безопасности в среднем на 51% по сравнению с современными методами защиты от BA и на 25,7% по сравнению с методами перезаписи с закрытой книгой. Наконец, мы показываем, что OBBR обладает вычислительной эффективностью по сравнению с другими методами защиты от BA, не снижает производительность модели на задачах обработки естественного языка после тонкой настройки и способен защищать от атак по отравлению данными, не основанных на триггерах.

Для детекторов ИИ базовые модели выглядят человеческими
Base Models Look Human To AI Detectors

May 19

ByYixuan Even Xu, Ziqian Zhong, Aditi Raghunathan, Fei Fang, J. Zico Kolter

По мере того как текст, созданный ИИ, масштабно проникает в реальный мир, учреждения все чаще используют коммерческие детекторы ИИ-текста, особенно в образовательных процессах и процедурах обеспечения академической честности. Мы сообщаем об удивительном эмпирическом наблюдении, касающемся таких систем: при оценке с помощью GPTZero и Pangram текст, сгенерированный базовыми моделями, часто воспринимается как в высшей степени человеческий, тогда как текст, созданный их аналогами, настроенными на выполнение инструкций, — нет. Основываясь на этом наблюдении, мы предлагаем «Очеловечивание путем итеративного перефразирования» (HIP) — независимый от детектора конвейер, который минимально дообучает базовую модель до состояния перефразировщика и применяет его итеративно. По сравнению с протестированными базовыми методами HIP обеспечивает более сильный компромисс между сохранением семантики и обходом коммерческих детекторов. В семействах Llama-3 и Qwen-3, охватывающих размеры моделей от 0,6B до 70B, HIP неизменно повышает человекообразность с точки зрения детекторов. Наши результаты позволяют предположить, что современные детекторы отслеживают артефакты настройки на выполнение инструкций и локального контекста в большей степени, чем какое-либо инвариантное понятие машинно-сгенерированного текста. Это, в свою очередь, требует создания детекторов, которые моделировали бы эти факторы более явно.

Конференции по компьютерным наукам должны требовать неопровержимых экспериментальных результатов
Computer Science Conferences Should Require Nonrepudiable Experimental Results

May 9

ByMamadou K. Keita, Christopher Homan

В данной дискуссионной статье утверждается, что конференции по компьютерным наукам должны требовать защищенных от несанкционированного изменения и обеспечивающих неотказуемость доказательств экспериментальных результатов. Мы определяем лежащую в основе проблему как неотказуемость эксперимента: соответствующий требованиям протокол должен связывать числа в статье с фактически выполненными вычислениями таким образом, чтобы автор не мог впоследствии их изменить или отвергнуть. Текущая система основана на самостоятельно заполняемых контрольных списках, дополнительном обмене кодом и ведении журналов под контролем автора. Ни один из этих механизмов не отвечает на вопрос, который не может проверить рецензент: породил ли код, описанный в статье, числа, представленные в статье? Мы формально определяем задачу, формулируем свойства безопасности, которым должен удовлетворять любой соответствующий требованиям протокол, и описываем модель угроз, включающую атаки, которые современные подходы не предотвращают. Чтобы показать, что задача решаема, мы создали K-Veritas — эталонную реализацию на Go, которая формирует подписанные отчеты без доступа к обучающим данным. K-Veritas является тестовой платформой, а не готовым решением. Мы призываем конференции и сообщество рассматривать неотказуемость как обязательное требование и участвовать в создании открытого независимого стандарта для нее.

S-Bus: Автоматическая реконструкция множества чтения для координации состояний многоагентных LLM
S-Bus: Automatic Read-Set Reconstruction for Multi-Agent LLM State Coordination

May 16

BySajjad Khan

Параллельные LLM-агенты, совместно использующие изменяемое естественно-языковое состояние, порождают структурные состояния гонки (Structural Race Conditions, SRC): конфликты записи-записи и устаревшего чтения между шардами (cross-shard stale-read conflicts), которые незаметно искажают вывод агентов. Существующие мультиагентные фреймворки (LangGraph, CrewAI, AutoGen) не предоставляют семантики владения записью над разделяемым состоянием. Мы представляем S-Bus — HTTP-промежуточное ПО, центральным механизмом которого является серверный DeliveryLog: поагентый журнал HTTP-операций GET, который автоматически восстанавливает набор чтения каждого агента на момент фиксации без изменений в SDK агентов под HTTP/1.1. Свойство согласованности, обеспечиваемое DeliveryLog — Изоляция наблюдаемого чтения (Observable-Read Isolation, ORI), частичная причинно-следственная согласованность над проекцией набора чтения, наблюдаемой через HTTP, — предотвращает структурные состояния гонки при сотрудничестве агентов через общие шарды. Три вклада: (C1) Механизм DeliveryLog для автоматического восстановления набора чтения на основе HTTP-трафика с трехуровневым механизированным доказательством: корректность набора чтения (ReadSetSoundness) и безопасность фиксации на основе ORI (ORICommitSafety), проверенные на машине в TLAPS (с сохранением одной аксиомы типизации); исчерпывающий TLC при N=3 (20 763 484 различных состояний, ноль нарушений); Dafny разряжает 9 индуктивных лемм о корректности. (C2) Эмпирическая паритетность предотвращения структурных конфликтов по сравнению с PostgreSQL 17 SERIALIZABLE и Redis 7 WATCH/MULTI при прогонах конкуренции за общие шарды с 427 308 активными конфликтами HTTP-409: ноль повреждений типа I на всех трёх бэкендах. (C3) Рабочий диапазон ORI зависит от топологии: семантически нейтрален для нагрузок с выделенными шардами; вреден при совместной записи в один шард, поскольку сохранение распространяет одновременные противоречия. Исходный код: https://github.com/sajjadanwar0/sbus

SAGA: Последовательно-адаптивная генеративная архитектура для многогоризонтного вероятностного прогнозирования с адаптивным темпоральным конформным прогнозированием
SAGA: A Sequence-Adaptive Generative Architecture for Multi-Horizon Probabilistic Forecasting with Adaptive Temporal Conformal Prediction

May 18

ByGustav Olaf Yunus Laitinen-Fredriksson Lundström-Imanov, Hafize Gonca Cömert

Микромодели, используемые министерствами финансов и центральными банками, опираются на параметрические процессы для моделирования пожизненных доходов, которые учитывают лишь первые и вторые моменты условного распределения и упускают долгосрочную нелинейную структуру. Мы предлагаем SAGA — трансформер с декодером для нерегулярных табличных панельных последовательностей, дополненный обёрткой калибровки раздельного конформного предсказания, которая обеспечивает индивидуальные интервалы прогноза с гарантиями маргинального покрытия для конечной выборки. Модель обучена на продольном шведском регистре LISA за период с 1990 по 2022 год, включающем 2 143 817 человек и 61 284 903 человеко-года. Она прогнозирует ежегодные доходы от труда на горизонте от одного до тридцати лет и агрегирует их методом Монте-Карло в распределение текущей дисконтированной стоимости пожизненных доходов. По сравнению с каноническим параметрическим процессом Гювенена, Карахана, Озкана и Сонга, а также табличными и рекуррентными базовыми моделями, SAGA снижает непрерывный рейтинговый вероятностный показатель на 31,9 % на десятилетнем горизонте и среднюю абсолютную ошибку на 37,7 % на двадцатилетнем горизонте. Конформные интервалы достигают номинального покрытия с отклонением до 0,4 процентного пункта маргинально и до 2,4 процентного пункта для наихудшей демографической подгруппы. Восстановленный коэффициент Джини пожизненных доходов составляет 0,327 против частично наблюдаемой истины 0,341 и оценки GKOS 0,378. Веса модели, калибровочные таблицы и синтетический эквивалентный набор данных публикуются для воспроизведения результатов за пределами защищённой среды SCB MONA.

RoPE доказуемо не различает ни позиции, ни токены в длинных контекстах.
RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably

May 15

ByYufeng Du, Phillip Harris, Minyang Tian, Eliu A Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan, Hao Peng

Мы выявляем внутренние ограничения вращательных позиционных вложений (RoPE) в языковых моделях с длинным контекстом на основе Transformer. Наш теоретический анализ абстрагируется от конкретного содержания контекста и зависит только от его длины. Мы доказываем, что при увеличении длины контекста внимание на основе RoPE становится непредсказуемым и теряет два свойства, которые являются центральными для его эффективности. Во-первых, оно теряет свой локальный уклон: RoPE больше не склонен отдавать предпочтение более близким позициям перед значительно более отдаленными. Во-вторых, оно теряет согласованность в релеванности токенов: вектор ключа, который получает более высокий балл внимания, чем альтернатива на одной позиции, может получить более низкий балл на другой. В обоих случаях вероятность ошибки приближается к 0.5, что не лучше случайного угадывания. Мы также доказываем, что балл внимания может оставаться неизменным, когда ключевой токен перемещается на другую позицию или даже заменяется другим токеном, что указывает на неспособность различать позиции или токены. Регулировка базы RoPE создает компромисс между различением позиций и различением токенов, но не может сохранить оба одновременно. Увеличение гиперпараметра базы RoPE, общепринятая практика в современных моделях с длинным контекстом, помогает различать разные токены, но неизбежно жертвует способностью различать позиции. Наш эмпирический анализ показывает, что многослойные архитектуры с несколькими головами недостаточны для преодоления этих ограничений. Наши результаты указывают на то, что в будущих языковых моделях с длинным контекстом на основе Transformer могут потребоваться принципиально новые механизмы для кодирования позиции и порядка токенов.