Ежедневно отобранные исследовательские статьи по ИИ с переводами
Научные иллюстрации являются одними из наиболее эффективных средств передачи сложных исследовательских идей, однако создание иллюстраций качества, пригодного для публикации, остаётся одной из самых трудоёмких частей подготовки статьи. Существующие автоматизированные системы каждая нацелены на один тип иллюстрации при вводе только в виде текста, оставляя без внимания разнообразие типов и условий, которые исследователи реально используют; их растровые выходные данные, кроме того, не поддаются локальному исправлению. Поскольку научные иллюстрации представляют собой структурированные композиции дискретных семантических компонентов, локализованные ошибки, которые генераторы порождают на таких макетах, требуют не более мощного «движка», а управляющей обвязки. Мы реализуем эту обвязку в двух дополняющих друг друга системах: Crafter – многоагентной управляющей системе для генерации иллюстраций, которая обобщается на различные типы иллюстраций и входные условия без изменений архитектуры, и CraftEditor, который применяет тот же шаблон для преобразования растровых выходных данных в редактируемые SVG. Кроме того, мы представляем CraftBench – эталонный набор данных, охватывающий три типа иллюстраций и четыре входных условия с аннотацией качества, выполненной человеком. Эксперименты показывают, что Crafter существенно превосходит как автономные генераторы, так и агентный базовый подход на PaperBanana-Bench и CraftBench, а абляции подтверждают независимый вклад каждого компонента; CraftEditor точно преобразует выходные данные в редактируемые SVG, превосходя все базовые подходы. Наш код и бенчмарк доступны по адресу https://github.com/HaozheZhao/Crafter.
Параметрически эффективная тонкая настройка (PEFT) обычно рассматривается как более дешевая альтернатива полной тонкой настройке. Мы изучаем более широкую роль: небольшие обучаемые адаптеры в качестве постоянного локального состояния поверх мощных общих фундаментальных моделей. В такой трактовке базовая модель обеспечивает общую компетентность, в то время как адаптеры несут поведение, специфичное для конкретного экземпляра, такое как предпочтения, навыки, привычки использования инструментов и обновления, напоминающие память. Мы организуем задачу вокруг трех осей масштабирования: масштабирование вверх (Scale Up), где более сильные общие априорные знания делают небольшие локальные обновления более полезными; масштабирование вниз (Scale Down), где мы изучаем, насколько малыми могут быть адаптеры, оставаясь при этом надежными; и масштабирование наружу (Scale Out), где сосуществует множество постоянных адаптированных экземпляров. MinT предоставляет один пример инфраструктуры для управления идентичностью адаптера, ревизией, происхождением, оценкой и резидентностью обслуживания. В совокупности результаты показывают, что PEFT может быть компактным субстратом для постоянных персональных моделей, а не только бюджетной заменой полной тонкой настройки.
По мере развития возможностей агентов существующие бенчмарки, такие как τ^2-Bench, становятся всё более насыщенными. Однако создание новых задач для бенчмарков остаётся сложным, дорогостоящим и трудоёмким процессом. Более того, стандартный подход, при котором сценарии сначала описываются на естественном языке, а затем отображаются в последовательности инструментов, охватывает лишь узкое подмножество паттернов использования инструментов, применяемых агентами. В данной статье мы решаем эти проблемы, обращая процесс создания задач. Мы предлагаем TASTE: синтез задач на основе эволюции последовательностей инструментов — автоматический метод, генерирующий сложные задачи с более широким охватом использования инструментов. TASTE использует адаптивную контрастивную n-граммную модель, обученную на сигналах валидности, оцениваемых LLM. Это позволяет выбирать валидные последовательности инструментов, охватывающие широкий спектр их комбинаций. Затем TASTE выбирает репрезентативные последовательности из пула с помощью кластеризации, инстанцирует их в полные задачи бенчмарка и дорабатывает через итеративную эволюцию сложности. Используя TASTE, мы создаём τ^c-Bench — сложное расширение трёх доменов τ^2-Bench. Мы оцениваем 11 пар агент/пользователь LLM и обнаруживаем, что модели, почти насыщающие τ^2-Bench, демонстрируют серьёзное падение производительности на наших задачах (например, Gemini-3-Flash снижается с 0,82-0,94 до 0,28-0,61). Помимо повышения сложности, наши сгенерированные задачи более чем вдвое увеличивают количество уникальных комбинаций инструментов, которые должны выполнять агенты. Наши результаты показывают, что высокие показатели на существующих бенчмарках часто отражают насыщение, а не надёжную способность решать задачи. Автоматизируя генерацию сложных бенчмарков с высоким охватом, TASTE обеспечивает непрерывную масштабируемую оценку будущих агентов.
Оценки фронтирных моделей смещаются от базовых возможностей (например, следование инструкциям и рассуждение) в сторону композициональных, агентных, однако корейские агентные бенчмарки остаются редкими. Мы представляем K-BrowseComp — бенчмарк веб-агента, ориентированный на корейский контекст, состоящий из 400 задач. Подмножество из 300 задач K-BrowseComp-Verified вручную составлено и проверено носителями корейского языка. На этом подмножестве фронтирные LLM, включая GPT-5.5, DeepSeek-V4-Pro и GLM-5.1, достигают лишь 30,00–45,67%, что значительно ниже показателей BrowseComp, в то время как корейские LLM, выпущенные в рамках программы Фонда корейского искусственного интеллекта, получают лишь 0,00–10,33%. Мы также формируем синтетический раздел из 100 задач, используя сложные немногие примеры и генерацию, нацеленную на типичные сбои, чтобы использовать асимметрию между решением и созданием задач веб-браузинга. На синтетическом диагностическом разделе, прошедшем состязательную фильтрацию, сильнейшая модель достигает лишь 26,00%, и мы сообщаем этот раздел отдельно как целевой стресс-тест. Мы публикуем наши данные и код в открытом доступе.
Поисковые агенты часто обучаются как политики, действующие на основе растущих транскриптов: модель должна решать, как осуществлять поиск, одновременно запоминая увиденное, какая информация полезна, какие ограничения остаются открытыми и какие утверждения были фактически проверены. Мы утверждаем, что такая формулировка возлагает слишком много рутинного управления состоянием на политику: обучение с подкреплением вынуждено оптимизировать как семантические решения о поиске, так и восстанавливаемые операции учёта, которые окружение может поддерживать более надёжно. Мы представляем Harness-1 — поисковый агент (подпрограмму поиска) с 20 миллиардами параметров, обученный с помощью подкрепления внутри оснастки поиска с сохранением состояния. Оснастка поддерживает рабочую память на стороне окружения, включая пул кандидатов, курируемый набор с тегами важности, компактные ссылки на свидетельства, записи верификации, сжатые и дедуплицированные наблюдения, а также отрисовку контекста с учётом бюджета. Политика сохраняет семантические решения: что искать, какие документы сохранять или отбрасывать, что проверять и когда остановиться. На восьми эталонах поиска, охватывающих веб, финансы, патенты и многошаговые вопросно-ответные системы, Harness-1 достигает среднего курируемого показателя полноты 0,730, превосходя следующую по силе открытую подпрограмму поиска на +11,4 процентных пункта и оставаясь конкурентоспособным с гораздо более крупными поисковыми системами на базе frontier-моделей. Его преимущества особенно заметны на отложенных эталонах переноса, что позволяет предположить, что обучение с подкреплением на основе явного состояния поиска может порождать поведение при извлечении, обобщаемое за пределы доменов обучения. Наш код доступен по адресу https://github.com/pat-jj/harness-1.
Спекулятивное декодирование ускоряет вывод больших языковых моделей, объединяя целевую модель с легковесной моделью-черновиком, чьи предлагаемые токены верифицируются параллельно. Распространённым способом построения моделей-черновиков, таких как EAGLE3 или DFlash, является контролируемая тонкая настройка (SFT) на траекториях, порождённых целевой моделью. Однако мы обнаружили, что SFT быстро выходит на плато: длина принятия модели-черновика на тестовых данных перестаёт улучшаться. Причина заключается в несоответствии между обучением на фиксированных данных и инференсом: в SFT модель-черновик обучается на фиксированных траекториях целевой модели, тогда как при спекулятивном декодировании она оценивается на блоках, предложенных в соответствии с её собственной политикой. Это мотивирует применение дистилляции на политике (OPD), при которой целевая модель контролирует черновик на состояниях, порождённых им самим. Однако OPD остаётся сложной для моделей-черновиков, поскольку они не могут надёжно самостоятельно разворачивать полные последовательности, в то время как генерация с помощью целевой модели заставляет собранные последовательности следовать целевому распределению и тем самым устраняет сигнал на политике. Поэтому мы предлагаем Draft-OPD, который использует развёртывание с помощью целевой модели для устойчивых продолжений и повторяет генерацию черновика с позиций ошибок, выявленных при верификации. Это позволяет черновику учиться на обратной связи от целевой модели как по принятым, так и по отклонённым предложениям, сосредотачивая обучение на ошибках, вызванных черновиком, которые ограничивают спекулятивное принятие. Эксперименты показывают, что Draft-OPD достигает более чем пятикратного ускорения без потери качества для моделей рассуждения на различных задачах, превосходя EAGLE-3 и DFlash на 23% и 13% соответственно.
Спекулятивное декодирование ускоряет инференс LLM за счёт генерации нескольких токенов-черновиков и их параллельной верификации с помощью целевой модели. Однако практическое ускорение ограничено компромиссом между качеством черновиков и стоимостью их генерации: авторегрессионные модели-черновики моделируют каузальные зависимости между токенами-черновиками, но несут последовательные накладные расходы, тогда как параллельные модели-черновики снижают стоимость генерации, но ослабляют моделирование внутриблочных зависимостей. В данной статье мы предлагаем Domino — фреймворк спекулятивного декодирования, который разделяет моделирование каузальных зависимостей и дорогостоящее авторегрессионное исполнение черновиков. Сначала Domino использует параллельную базовую архитектуру черновиков для формирования предварительных распределений черновиков по всему блоку, а затем применяет лёгкую головку Domino для их уточнения с учётом префикс-зависимой каузальной информации. Для стабилизации каузального кодирования с принудительным обучением учителя мы дополнительно вводим учебный план с привязкой к базовой модели, который сначала усиливает параллельную базовую архитектуру, а затем постепенно смещает оптимизацию в сторону окончательного каузально-скорректированного распределения. Эксперименты на моделях Qwen3 показывают, что Domino достигает сквозного ускорения до \(5.49\times\) на бэкенде Transformers и до \(5.8\times\) ускорения пропускной способности при сервировке SGLang.
Водяные знаки внедряют статистические сигнатуры в сгенерированный ИИ текст для обнаружения и атрибуции. Мы выявляем фундаментальную уязвимость: когда пользователи обращаются к нескольким моделям (что является реальностью сегодня), водяные знаки тривиально перестают работать. Водяные знаки смещают выходные распределения относительно исходного, и на конкурентных рынках эти возмущения, как правило, независимы у разных провайдеров. Мы теоретически доказываем, что усреднение распределений вероятностей вывода восстанавливает немаркированное распределение с точностью до члена ошибки второго порядка. Эмпирически простое усреднение 3–5 моделей отменяет эти возмущения. Мы представляем WASH (ослабление водяного знака посредством статистической гибридизации), который решает практические проблемы генерации ансамбля: несоответствие словарей и различия в токенизации между гетерогенными моделями. Эксперименты с шестью схемами водяных знаков и тремя большими языковыми моделями показывают, что усреднение по трём моделям подавляет z-оценки обнаружения с 5–300 до ниже 2 (ниже порога обнаружения 4) и снижает истинно положительную частоту при 5% ложной положительной частоте до менее 50%, одновременно улучшая качество на 27,5% и работая в 6 раз быстрее лучшего базового метода при генерации длинных последовательностей. Наши результаты показывают, что надёжное обнаружение ИИ-текста с помощью водяных знаков требует либо признания этой фундаментальной уязвимости, либо беспрецедентной координации между поставщиками моделей.
Стандартное предсказание следующего токена (NTP) управляет языковыми моделями исключительно с помощью дискретных меток в пространстве выходных логитов. Мы утверждаем, что такое разреженное one-hot управление оставляет пространство скрытых представлений недостаточно ограниченным, позволяя скрытым состояниям дрейфовать в вырожденные и анизотропные конфигурации, что может ограничивать обобщение. Для решения этой проблемы мы предлагаем предсказание следующего неявного токена (NITP), которое дополняет дискретное предсказание плотным непрерывным управлением непосредственно в пространстве представлений. NITP обучает модель предсказывать неявное семантическое содержание следующего токена, используя представления мелких слоев той же модели в качестве стабильных целей самоконтроля. Мы предоставляем теоретический анализ, показывающий, что NITP регулирует ландшафт оптимизации, уменьшая недостаточно ограниченные степени свободы и поощряя компактную, структурированную геометрию представлений. Эмпирически, на плотных моделях и моделях смеси экспертов (MoE) от 0,5 до 9 миллиардов параметров, NITP последовательно улучшает производительность на последующих задачах с пренебрежимо малыми вычислительными затратами. На модели MoE с 9 миллиардами параметров NITP достигает абсолютного улучшения на 5,7% на MMLU-Pro, а также прироста на 6,4% на C3 и 4,3% на CommonsenseQA, при дополнительных затратах FLOPs на обучение около 2% и без дополнительных затрат на вывод. Наша реализация доступна по адресу https://github.com/aHapBean/NITP.
Недавняя парадигма «Рассуждение с видео» использует модели генерации видео (VGM) для создания темпорально согласованных визуальных траекторий с целью выполнения задач рассуждения. Несмотря на то, что современные VGM достигают высокого визуального качества, они часто испытывают трудности с пониманием и соблюдением специфических правил задачи, что приводит к логическим сбоям в различных сценариях рассуждения. Существующие попытки используют модели зрения и языка (VLM) в качестве предрешателей задач для создания или уточнения текстовых руководств для VGM. Однако текстовые описания неспособны охватить сложные пространственно-временные детали, а VGM часто с трудом точно выполняют детализированные или редко встречающиеся инструкции, даже при наличии корректного плана. Хотя VLM испытывают трудности в роли решателей, они обладают мощными способностями восприятия для оценки соблюдения процессных ограничений и достижения конечной цели. Используя это преимущество, мы вводим смену парадигмы, переводящую роль VLM на «учителей». В частности, VLM-учитель извлекает правила, специфичные для задачи, для формулирования дифференцируемых вознаграждений, направляя VGM-рассуждатель через онлайн-оптимизацию в тестовое время легковесного модуля LoRA. Эта стратегия позволяет адаптивную оптимизацию в тестовое время и расширяет возможности рассуждения за пределы внутренних границ VGM. Оценки на символьном (VBVR-Bench) и общем (RULER-Bench) бенчмарках для видео-рассуждений показывают, что предложенный метод дает средний прирост производительности в 16,7 балла, значительно превосходя парадигму VLM-как-Решатель (+0,4 балла) и масштабирование Best-of-N (+2,2 балла) при сравнимых затратах времени тестирования. Эти результаты показывают, что интеграция VLM в качестве учителей в тестовое время предлагает многообещающую парадигму для достижения обобщаемого видео-рассуждения. Страница проекта: https://VLM-as-Teacher.github.io/
Хотя понимание потокового видео достигло значительных успехов, реальные приложения, такие как прямые спортивные трансляции, автономное вождение и многожранное взаимодействие, по своей сути требуют непрерывного взаимодействия с несколькими потоками. Однако существующие эталоны ограничены однопоточными парадигмами, что создает критический пробел в оценке онлайн-рассуждений между потоками. Для устранения этого пробела мы представляем X-Stream — первый эталон, посвященный многопоточному потоковому пониманию. Состоящий из 4 220 тщательно отобранных пар вопрос-ответ, охватывающих 932 видео, X-Stream оценивает 11 подзадач в сценариях с несколькими окнами, несколькими ракурсами и несколькими устройствами. Ключевой особенностью нашего набора данных является новый двухэтапный процесс верификации, предотвращающий чрезмерную зависимость от единственного потока. Кроме того, мы впервые концептуализируем мультимодальные большие языковые модели (MLLM) как наивные мультиплексоры, систематически оценивая их производительность через призму теории мультиплексирования сигналов. Наши обширные эксперименты по онлайн-логическому выводу выявляют суровую реальность: современные MLLM испытывают значительные трудности с одновременными потоками, достигая лишь около 50% правильных ответов и демонстрируя слабую проактивную способность. В конечном итоге X-Stream раскрывает компромисс современных схем мультиплексирования, предоставляя как практический протокол оценки, так и эмпирические рекомендации для будущих многопоточных агентов.
Долгосрочная каузальная диффузия видео сошлась на использовании фиксированного скользящего окна KV-кэша, причем недавние достижения развиваются в рамках этой схемы за счет изменения того, какие токены занимают окно или как кодируются их позиции. Сама структура KV-кэша для каждой головы, являющаяся основным источником затрат памяти и задержки при потоковой передаче, в основном оставалась неизменной. В данной работе мы представляем первое исследование мультиголового латентного внимания (Multi-Head Latent Attention, MLA) в диффузии видео. VideoMLA заменяет ключи и значения для каждой головы общим низкоранговым латентным представлением содержимого и общим раздельным позиционным ключом 3D-RoPE, сокращая объем памяти KV на токен на 92,7% на каждом кэшированном слое. Мы дополнительно исследуем, почему MLA успешно применяется в диффузии видео, даже если спектральное предположение, часто используемое для его обоснования в языковых моделях, не выполняется: предобученное внимание к видео не является низкоранговым, причем эффективный ранг с 99%-ной энергией значительно превышает любой практически значимый размер латентного пространства. VideoMLA сохраняет качество при коэффициентах сжатия, при которых прямое спектральное приближение предсказывало бы большую ошибку реконструкции. Мы показываем, что эффективный ранг определяется не предобученным спектром, а бутылочным горлышком MLA: как спектральная, так и случайная инициализация с самого начала почти полностью используют выделенный ранг, а обучение сохраняет этот бюджет, адаптируясь в его пределах. На VBench VideoMLA сопоставим с базовыми методами краткосрочной потоковой диффузии видео, достигает лучшего общего показателя при долгосрочных горизонтах среди оцененных методов и повышает пропускную способность в 1,23 раза на одном B200.
Агенты на основе больших языковых моделей (LLM) всё чаще полагаются на многократно используемые внешние навыки для решения долгосрочных интерактивных задач. Существующие подходы к адаптации навыков без обучения обычно обновляют навыки на основе полных траекторий или обратной связи на уровне сеансов, что делает атрибуцию сбоев грубой и часто приводит к нестабильным или чрезмерно широким корректировкам. Мы предлагаем SkillAdaptor — фреймворк для адаптации навыков на уровне шагов без обучения с явной атрибуцией сбоев, который можно встраивать в обвязки агентов класса OpenClaw. Для данной неудачной траектории SkillAdaptor идентифицирует первый шаг с действительным сбоем, связывает ответственность с соответствующими навыками и применяет целенаправленные обновления при явных проверках приемлемости, оставляя базовую модель замороженной. Мы оцениваем фреймворк на WebShop, PinchBench и Claw-Eval с использованием Kimi-K2.5, GLM-5 и GPT-5.2. SkillAdaptor превосходит базовые подходы без навыков и с адаптацией навыков на всех трёх наборах, причём наибольшие улучшения по отдельным метрикам составляют +1,5 пункта по среднему проценту баллов PinchBench, +1,8 по среднему баллу Claw-Eval и +1,7 по показателю успешности WebShop. Эти результаты показывают, что атрибуция на уровне шагов обеспечивает более стабильное и проверяемое обслуживание навыков без обучения. Код будет опубликован по адресу https://github.com/zjunlp/SkillAdaptor.
Люди могут воспроизводить точку обзора, заданную целевым изображением, с помощью активных движений головы и тела, однако пространственный интеллект фундаментальных моделей в основном изучался как пассивное понимание предварительно собранных наблюдений. Мы представляем задачу Target Viewpoint Reproduction (TVR) — активную задачу, в которой агент изменяет свою точку обзора в трехмерной среде до тех пор, пока его наблюдение не совпадет с заданным целевым изображением, — и бенчмарк TVRBench, симуляционный бенчмарк для помещений, охватывающий масштабы сцены и визуальную насыщенность целевого вида. TVR далека от решения: на оценочном разделе сильнейшие модели с открытым и закрытым исходным кодом достигают лишь 7,8% и 12,0% успеха. Детальный анализ выявляет два устойчивых узких места: готовые модели испытывают трудности с многовитковой визуальной историей, и производительность резко падает, когда воспроизведение точки обзора требует перемещения корпуса, а не поворота на месте, что обнажает разрыв в отображении пространственных несоответствий на воплощенное движение. Для изучения возможности уменьшения этого разрыва мы создаем унифицированный фреймворк последующего обучения TVR, охватывающий SFT на экспертных траекториях, SFT с цепочкой рассуждений, контролируемой обоснованиями (CoT-SFT), офлайн GRPO с одним шагом (Single-turn GRPO) и он-полиси GRPO с несколькими шагами (Multi-turn GRPO) на основе прогонов в симуляторе в реальном времени. Визуально-действенное SFT обеспечивает основной прирост, повышая успех открытой 9B-модели до 50,8%; Multi-turn GRPO обеспечивает целенаправленное уточнение для нескольких комнат и достигает 51,4% в целом, в то время как CoT-супервизия и Single-turn GRPO ухудшают производительность в замкнутом цикле. Эти результаты утверждают TVRBench как испытательный стенд для измерения и обучения фундаментальных моделей, которые активно воспринимают и действуют в трехмерных средах. Наш код, данные и модели доступны по адресу https://github.com/aim-uofa/TVRBench.
Пространственный интеллект требует визуальных представлений, которые отражают как семантические объекты, так и геометрическую структуру физического мира. Для поддержки этой задачи в настоящее время широко используются две основные схемы предварительного обучения в качестве фундаментальных бэкбонов: модели зрения и языка (Vision-Language Models, VLM), которые используют языковое сопровождение для согласования визуальных наблюдений с семантическими концептами, и модели генерации видео (Video Generation Models, VGM), обучающиеся на временно эволюционирующих визуальных мирах. Тем не менее, остается неясным, какая схема предварительного обучения обеспечивает лучший субстрат представлений для пространственного интеллекта. В данной работе мы представляем первое систематическое исследование замороженных признаков (frozen-feature probing) для VLM и VGM по трем репрезентативным осям пространственного интеллекта: семантическая разметка, группировка экземпляров и предсказание 3D-геометрии. Используя легковесный пробинг, наш фреймворк позволяет контролируемо сравнить, какая информация уже закодирована в замороженных представлениях из двух семейств моделей. Результаты экспериментов выявляют явную взаимодополняемость: VLM сильнее в семантической разметке и группировке экземпляров, тогда как VGM предоставляют более доступные сигналы для плотной геометрии и движения камеры. Более того, наивное объединение двух подходов уже дает представление, которое превосходит как в геометрии, так и в семантике, что указывает на перспективное направление для создания более сильных бэкбонов пространственного интеллекта путем эффективной интеграции признаков из обоих семейств моделей. Наш код доступен по адресу https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM}.
Агенты долгосрочного поиска накапливают большие объёмы извлечённого контента в ходе многочисленных вызовов инструментов, что делает эффективность бюджета контекста всё более важной. Минимальным вмешательством является маскировка устаревших наблюдений из контекста по мере развития траектории, однако остаётся неясным, когда такая форма управления контекстом помогает и почему. Мы изучаем маскировку наблюдений путём систематического перебора различных базовых моделей агентов (от 4B до 284B параметров) и трёх ретриверов на офлайн- и живых веб-бенчмарках агентного поиска. Мы обнаружили, что прирост точности за счёт маскировки имеет асимметричную перевёрнутую U-образную форму при построении графика относительно точности модели без управления контекстом: плато в случае слабых ретриверов, пик при сочетании сильного ретривера с моделью средней ёмкости и резкое падение при насыщении модели. Эта закономерность отражает взаимодействие полноты поиска ретривера и имплицитной фильтрующей способности модели, а не влияние какого-либо из этих факторов по отдельности. Механистически маскировка реализует компромисс между токенами и шагами: она удаляет наблюдения, на которых модель в значительной степени перестала фокусироваться, и страницы, которые агент редко повторно открывает. Добавленные шаги помогают, когда они превращают неудачи в успехи, но не срабатывают, когда маскировка удаляет свидетельства, которые модель в противном случае использовала бы. Таким образом, мы переосмысливаем управление контекстом как интервенцию, зависящую от режима, и предлагаем целостную перспективу для анализа использования контекста в углублённом агентном поиске. Мы публикуем нашу архитектуру и траектории здесь (https://github.com/i-DeepSearch/observation-masking) для поддержки будущих исследований.
Когда большая языковая модель в процессе обучения с подкреплением совершает неверный шаг рассуждения на раннем этапе траектории, стандартные алгоритмы вынуждают её продолжать генерацию до достижения максимального горизонта, расходуя вычислительные ресурсы на токены, которые никогда не получат положительного вознаграждения, и загрязняя оценки преимущества шумом после сбоя. Мы предлагаем ESPO (Досрочная остановка проксимальной оптимизации политики), который обнаруживает сбой траектории на лету и досрочно завершает развертывания. На каждом шаге генерации ESPO вычисляет суррогатное сожаление, используя только уже вычисленные в процессе семплирования логиты, и прекращает генерацию, когда сглаженное кумулятивное сожаление значительно превышает его оценочные значения. Усечённые траектории рассматриваются как поглощающие состояния отказа с терминальным вознаграждением, концентрируя отрицательные ошибки временной разницы (TD) вблизи обнаруженного шага сбоя без использования дополнительной модели вознаграждения или человеческой аннотации. На модели DeepSeek-R1-Distill-Qwen-7B, обученной для математических рассуждений, ESPO превосходит PPO на AIME 2024 (46,28% против 45,25%), AMC 2023 (85,83% против 82,94%) и MATH-500 (87,42% против 85,43%), при этом экономя более 20% токенов развертывания в совокупности.
Мультиагентные рабочие процессы на основе LLM распределяют вывод между специализированными ролями для повышения точности конечной задачи, однако совместное обучение этих ролей с помощью обучения с подкреплением нестабильно, причём причины этой нестабильности остаются слабо изученными. Мы исследуем, когда сквозное RL-обучение мультиагентных LLM-процессов улучшает показатели базовых моделей, сравнивая обучение с общей политикой (Shared-Policy), где все роли обновляют одну политику, и обучение с изолированной политикой (Isolated-Policy), где каждая роль имеет собственные параметры. Наша экспериментальная матрица включает рабочие процессы Eval-Opt, Voting и Orch-Workers, задачи по математике и программированию, а также три масштаба моделей (0,6B, 1,7B, 4B). Мы обнаружили, что мультиагентное RL обычно улучшает базовые модели, однако выигрыш зависит от совместного влияния рабочего процесса, задачи и масштаба, а не только от совместного использования политик. Изолированная политика, как правило, достигает более высокой пиковой точности, но чаще сталкивается с резким падением точности до терминального уровня, в то время как обучение с общей политикой не устраняет сбои, а перераспределяет их в качественно иные паттерны. Затем мы объясняем наиболее выраженные из этих паттернов через динамику градиентов на уровне ролей, обусловленную топологией рабочего процесса и маршрутизацией политик: при изолированной политике параллельные агенты одной роли на общих промптах усиливают градиенты каждой роли и приводят к терминальной деградации в процессах Voting и Orch-Workers; при общей политике асимметричная масса градиентов на каждом шаге приводит к захвату общей политики доминирующей ролью, порождая различные сигнатуры сбоев в зависимости от задачи и рабочего процесса. В совокупности эмпирическая карта и её механизмы показывают, что совместное использование политик перенаправляет тренировочное давление по другим каналам, а не обеспечивает равномерную стабильность, что делает его проектным выбором с условными компромиссами в зависимости от рабочего процесса и задачи.
Протокол контекста модели (MCP) стал преобразующим стандартом для подключения больших языковых моделей (LLM) к внешним источникам данных и инструментам, и получил быстрое распространение в персональных приложениях и платформах разработки. Однако существующие бенчмарки в основном сосредоточены на универсальных инструментах поиска информации и не учитывают практические трудности, возникающие в персональных социальных приложениях, где инструменты взаимодействуют с индивидуальными учетными записями или локальными базами данных. Чтобы восполнить этот критический пробел, мы представляем MCP-Persona — первый бенчмарк, специально разработанный для оценки производительности агентов на реальных, персонализированных инструментах MCP. MCP-Persona охватывает разнообразный набор широко используемых приложений, от социальных медиаплатформ, таких как Reddit и Xiaohongshu (Rednote), до корпоративных пакетов совместной работы, таких как Lark (Feishu) и Slack. Наши обширные эксперименты с различными передовыми (SOTA) агентами демонстрируют их существенные трудности при использовании персонализированных инструментов, тем самым подчеркивая решающую роль бенчмарка в выявлении и устранении этих ограничений. MCP-Persona находится в открытом доступе по адресу: https://github.com/wwh0411/MCP-Persona.
Плотное самовнимание является узким местом по вычислительным ресурсам и качеству при инференсе диффузионных моделей для длинных видео: вычислительные затраты растут квадратично от длины последовательности, а за пределами тренировочного горизонта модель сходится к почти статичному выводу, то есть к «замороженному» повторяющемуся видео. Современные подходы либо слишком затратны (например, требуют переобучения), либо не позволяют одновременно достичь целей по производительности и качеству масштабируемым образом. В связи с этим мы представляем Разреженное Внимание для Длинных Видео (Long Video Sparse Attention, LVSA) — не требующее обучения, агностичное к модели блочно-разреженное внимание для диффузионных трансформеров видео, которое сочетает структурированный оконный шаблон с вращающимися глобальными якорями, тем самым устраняя смещение фиксированной сетки, вызывающее долговременные временные артефакты. LVSA в сочетании с ядром FlashInfer сокращает вычислительные затраты до 3,17x на модели Wan 2.1 1.3B при горизонте 6x, до 2,98x на Wan 2.1 14B при горизонте 6x и до 3,33x на HunyuanVideo 1.5 при горизонте 1,5x по сравнению с плотным вниманием. Помимо снижения вычислительных затрат, LVSA позволяет генерировать видео с помощью HunyuanVideo 1.5 при горизонте 2x, что иначе невозможно из-за нехватки памяти на одном GPU. Более того, LVSA обеспечивает ускорение до 2,41x по сравнению с RIFLEx и до 3,27x по сравнению с UltraViCo на Wan 2.1 1.3B. Для демонстрации применимости на различных платформах мы применяем LVSA на NPU и достигаем ускорения до 2,71x на Wan 2.2 A14B и до 3,24x на Wan 2.1 1.3B по сравнению с плотным вниманием. Для справедливой оценки качества мы представляем VQeval — инструмент, корректно оценивающий циклические сбои видео, которые, напротив, поощряются в современных средствах оценки, таких как VBench-Long. LVSA является нейтральным по качеству для генерации на длине тренировочного горизонта и положительным по качеству для расширенных длин.
В условиях открытых сред исследование является фундаментальным для автономных агентов, однако современные агенты на языковых моделях испытывают с этим трудности. Эффективное исследование требует памяти, но сохранение необработанной истории взаимодействий становится вычислительно затратным на длинных траекториях. Хотя латентная память предлагает решение для сжатия истории взаимодействий, её обучение лишено надёжных сигналов контроля. Мы представляем JAMEL (Joint Agent Memory and Exploration Learning) — фреймворк, который обучает агентскую память и политику исследования совместно, используя взаимодействие, основанное на новизне. Мы наблюдаем, что память и исследование образуют взаимозависимый цикл: устойчивое исследование требует памяти для различения исчерпанных и неизведанных поведений, а поиск новизны в ходе взаимодействия обеспечивает контроль, необходимый для того, чтобы память была полезна для будущих исследований. Используя детерминированные и постоянные сигналы новизны, такие как покрытие кода в домене графического интерфейса, мы обеспечиваем естественный контроль без разметки для модуля памяти. Эмпирические оценки показывают, что \ours успешно обобщается на незнакомые среды. Его способность к исследованию превосходит модели-бейзлайны с открытыми весами и сопоставима с глубиной исследования проприетарной модели, при этом сокращая потребление токенов. Наш код и модель опубликованы с открытым исходным кодом по адресу https://github.com/MobileLLM/JAMEL.
Авторегрессивная (AR) диффузия видео позволяет генерировать последовательности переменной длины, однако долгосрочная генерация часто страдает от накопленных ошибок и дрейфа идентичности. Для повышения эффективности существующие методы обычно используют внимание со скользящим окном на этапе генерации. Это создает необратимую траекторию генерации: как только активное окно накапливает ошибки внешнего вида, последующие поколения могут опираться только на эту деградировавшую траекторию и отклоняются еще сильнее. Мы решаем эту проблему, формулируя генерацию длинных видео как задачу генерации с дополнением через поиск (RAG). Вместо того чтобы полагаться исключительно на последнее окно, мы рассматриваем ранее сгенерированные латентные представления как динамическую, доступную для поиска историю. Мы предлагаем LongLive-RAG — общую структуру поиска для AR-генерации видео. На каждом новом блоке LongLive-RAG использует эмбеддинг запроса для извлечения релевантных исторических латентных представлений. Этот легковесный этап поиска добавляет лишь небольшие накладные расходы по сравнению с генерацией и позволяет генератору опираться на нелокальный контекст вместо только лишь последнего окна. Чтобы сделать поиск более дискриминативным, мы вводим потерю временной дельты окна (Window Temporal Delta Loss), которая подавляет избыточную локальную схожесть и побуждает эмбеддинги захватывать значимые временные изменения. Вместе эти компоненты помогают уменьшить накопление ошибок, вызванное вниманием со скользящим окном. Эксперименты с несколькими AR-основами и длинами генерации показывают улучшение качества длинных видео и наилучший средний рейтинг VBench-Long. Насколько нам известно, среди методов открытой AR-генерации длинных видео LongLive-RAG является первым, кто формулирует собственную сгенерированную историю латентных представлений как адресуемую по содержимому память поиска. Код доступен по адресу https://github.com/qixinhu11/LongLive-RAG.
Декодирование визуального содержания из сигналов фМРТ, записанных во время просмотра изображений, и, в частности, ответы на вопросы о просмотренных изображениях, является давней задачей. Несмотря на значительный прогресс, достигнутый в последние годы в области визуального ответа на вопросы (VQA) на основе фМРТ, производительность остается ограниченной. Более того, хотя современные модели могут делать все более точные прогнозы, они редко использовались в качестве инструментов для понимания структуры визуальных репрезентаций в мозге. Мы представляем Brain-IT-VQA — фреймворк для визуального ответа на вопросы на основе фМРТ. Основываясь на Brain Interaction Transformer (Brain-IT), наш метод декодирует языковые токены из активности мозга и интегрирует их с языковой моделью для ответа на визуальные вопросы. Наша модель значительно превосходит предыдущие подходы к подписыванию изображений и VQA на основе фМРТ. Мы также представляем NSD-VQA — новый набор данных и эталон для визуального ответа на вопросы на основе фМРТ. В отличие от существующих наборов данных изображение-фМРТ для VQA, которые обычно предоставляют лишь несколько общих и слабо контролируемых вопросов на изображение, NSD-VQA предлагает в среднем 20 пар вопрос-ответ на изображение по 20 контролируемым категориям вопросов, которые разделяют несколько уровней визуального понимания. Это обеспечивает более надежную и интерпретируемую оценку, несмотря на ограниченность тестовых данных фМРТ. Вместе Brain-IT-VQA и NSD-VQA предоставляют как мощный предсказательный фреймворк, так и инструмент для изучения репрезентаций мозга. Используя этот эталон, мы количественно оцениваем, какие формы визуальной и семантической информации могут быть надежно декодированы из ответов фМРТ на натуральные изображения. Мы также анализируем вклад различных областей мозга в зависимости от типов вопросов.
Потоковая генерация совместного аудио и видео в реальном времени для анимации персонажей требует, чтобы генератор произносил запрошенный транскрипт, сохранял визуальную идентичность между чанками и работал в рамках строгого бюджета воспроизведения. Эти требования трудно удовлетворить одновременно: почанковая авторегрессивная генерация может накапливать рассогласование транскрипта и аудио, а также визуальный дрейф, в то время как дистилляция за несколько шагов, необходимая для низкой задержки, часто ухудшает пространственное разнообразие и временное качество. Мы представляем StreamChar — потоковый фреймворк, который разделяет долгосрочную оркестровку и кратковременное шумоподавление аудио-видео. Оркестратор на основе LLM использует транскрипт и исторический контекст для создания покадрово согласованных аудиоусловий, а совместный аудио-видео DiT выполняет локальное двунаправленное шумоподавление с обусловливанием по опорному кадру и кадру движения. Для эффективного развертывания мы используем двухэтапный конвейер дистилляции, который сначала сжимает сэмплер, а затем дообучает студента в условиях онлайн-развёртывания чанков. Указатель с учётом прогресса выравнивает частичные транскрипты с сгенерированным аудио во время обучения на развёртывании, а память сток-чанков обеспечивает постоянную визуальную привязку для уменьшения долгосрочного дрейфа. Эксперименты на протоколах коротких клипов и долгосрочных сценариев показывают, что StreamCha работает в реальном времени на одном GPU H100 и обеспечивает благоприятный системный компромисс между точностью транскрипта, аудиовизуальной синхронизацией, визуальным качеством и стабильностью потоковой передачи по сравнению с недавними совместными и аудиоуправляемыми базовыми моделями.
Агенты на основе больших языковых моделей (LLM) всё чаще используют внешние библиотеки навыков — процедурные инструкции, извлекаемые в момент принятия решений, — для повышения производительности в долгосрочных интерактивных задачах. Существующие библиотеки навыков, как правило, рассматриваются как модельно-независимые: одни и те же формулировки навыков применяются к базовым моделям с существенно различающимися ёмкостью и поведением. Однако наши контролируемые эксперименты на нескольких масштабах моделей показывают, что эффективность навыков сильно зависит от модели: навык, полезный для одной базовой модели, может навредить другой. Основываясь на этом наблюдении, мы предлагаем MASA (Model-Aware Skill Alignment) — фреймворк для выравнивания навыков с учётом модели, адаптирующий навыки к каждой целевой базовой модели без изменения весов агента. MASA работает в два этапа: (1) иерархический конвейер эволюции навыков, который итеративно переписывает общие и специфичные для задачи навыки, используя восхождение на холм и поиск по дереву на основе UCB, направляемые обратной связью от среды и профилями возможностей модели; (2) легковесный перезаписыватель навыков, обусловленный моделью, обученный на траекториях эволюции для воспроизведения адаптации за один прямой проход. Эксперименты в трёх интерактивных средах с четырьмя базовыми моделями показывают, что MASA неизменно достигает наилучшей общей производительности, обеспечивая прирост до 25,8 пункта по сравнению с самым сильным базовым методом. Обученный перезаписыватель дополнительно обобщается на невиданные задачи и среды без дополнительного поиска, стабильно превосходя гораздо более крупную учительскую LLM при значительно меньших затратах на инференс.
Создание эффективных визуальных веб-агентов требует долгосрочного рассуждения, точного связывания и надежного взаимодействия с динамическими реальными веб-сайтами. Несмотря на быстрый прогресс, самые сильные системы остаются в значительной степени проприетарными, в то время как открытые агенты по-прежнему сильно зависят от контролируемого пост-обучения на больших наборах курированных веб-траекторий. Эта зависимость создает серьезное узкое место масштабируемости: высококачественные демонстрации дороги в сборе, а статические наборы данных предлагают ограниченное покрытие разнообразной, постоянно меняющейся открытой сети. Хотя онлайн-обучение с подкреплением (RL) показало многообещающие результаты для текстовых агентов, его потенциал для обучения визуальных веб-агентов непосредственно на живых веб-сайтах остается в значительной степени неизученным. В этой статье мы представляем OpenWebRL — открытую платформу для обучения визуальных веб-агентов с помощью онлайн-многошагового RL на реальных веб-сайтах. OpenWebRL охватывает полный конвейер обучения, включая масштабируемую инфраструктуру живого браузера, контролируемую инициализацию, управление мультимодальным контекстом, оценку успешности на уровне траекторий и эффективную многошаговую оптимизацию политики. Используя эту платформу, мы обучаем OpenWebRL-4B, который устанавливает новый передовой уровень с открытым исходным кодом на сложных бенчмарках живых веб-сайтов. Используя только 0,4 тыс. траекторий инициализации и 2,2 тыс. задач обучения с подкреплением без жестких ограничений, OpenWebRL-4B достигает 67,0% успеха на Online-Mind2Web и 64,0% на DeepShop, превосходя предыдущих открытых агентов аналогичного или большего масштаба и оставаясь конкурентоспособным с проприетарными системами, включая OpenAI CUA и Gemini CUA. Помимо высокой производительности на бенчмарках, мы систематически изучаем ключевые проектные решения, которые делают онлайн-RL эффективным для визуальных веб-агентов, и анализируем, как RL улучшает агентное рассуждение. В целом, наша работа предлагает практический путь к созданию более способных, воспроизводимых и экономически эффективных открытых веб-агентов. Мы опубликуем наши обучающие данные, модели и код для поддержки будущих исследований.
Спекулятивное декодирование (СД) ускоряет инференс больших языковых моделей (LLM) с низкой степенью параллелизма за счёт использования парадигмы «черновик, затем проверка». Однако основные методы, как правило, полагаются на многотокенное предсказание, что приводит к возрастающей сложности предсказания и последовательной задержке формирования черновика. Для решения этих проблем мы предлагаем Спекулятивное конвейерное декодирование (СКД) — новаторскую структуру, раскрывающую истинный потенциал конвейерного параллелизма. Разделяя целевую LLM на n конвейерных стадий, СКД позволяет модели обрабатывать n токенов параллельно, ускоряя декодирование. Для непрерывного заполнения конвейера при декодировании одиночной последовательности модуль спекуляции агрегирует промежуточные признаки на различных глубинах конвейера для предсказания следующего токена, выполняясь строго параллельно с шагом конвейера целевой модели, что обеспечивает ограниченную сложность, более высокий уровень принятия и нулевые пузыри задержки. Наши эксперименты показывают, что СКД достигает значительно более высокого теоретического ускорения по сравнению с основными базовыми методами, предлагая высокомасштабируемое решение для ускорения декодирования LLM. Наш код доступен по адресу https://github.com/yuyijiong/speculative_pipeline_decoding.
Обучение с подкреплением (RL) улучшает агентов на основе больших языковых моделей (LLM), обучая их, какие действия приводят к высокому вознаграждению, но при этом практически не контролирует, как эти действия влияют на среду. Моделирование мира (WM) может восполнить этот пробел, однако существующие подходы часто требуют отдельных симуляторов, дополнительных этапов обучения или дополнительных вычислений во время инференса. Мы замечаем, что роллауты, полученные в ходе on-policy RL, уже содержат необходимый сигнал: каждый переход связывает действие с его результирующим следующим наблюдением. Основываясь на этом наблюдении, мы предлагаем PaW — фреймворк совместного обучения политики и модели мира, который добавляет вспомогательный WM-контроль к той же политике в процессе RL, не меняя парадигмы инференса. Чтобы сделать вспомогательный WM-контроль информативным и стабильным, PaW вводит три компонента: отбор данных для WM на основе энтропии действий, устойчивый к шуму WM-лосс и адаптивную к вознаграждению балансировку потерь. Эксперименты на трех задачах с агентами демонстрируют последовательное улучшение по сравнению с сильными RL-базлайнами на разных моделях и алгоритмах RL. Эти результаты свидетельствуют о том, что стандартные RL-роллауты являются практическим источником WM-контроля для обучения языковых агентов.
Понимание аффордансов связывает визуальное восприятие с физическими действиями, выступая в качестве объяснимого интерфейса для роботизированных манипуляций в открытых и неструктурированных реальных средах. Однако создание фундаментальной модели аффордансов, которая не только понимает, где и как должно происходить взаимодействие, но и обобщается на разнообразные среды, объекты и задачи, остается давней исследовательской проблемой. Существующие методы обычно решают лишь часть этой задачи: либо локализуют релевантные задаче области без указания выполнимого движения, либо предсказывают движение, но с ограниченной масштабируемостью. В данной статье мы представляем нашу модель — шаг к созданию фундаментальной модели аффордансов для понимания функциональности. На основе одного RGB-наблюдения и текстового описания задачи наша модель предсказывает функциональную маску с учетом задачи (где взаимодействовать) и трехмерную кривую движения после контакта (как взаимодействовать). Для поддержки обобщения на открытый мир мы построили крупномасштабный стандартизированный конвейер данных, который преобразует разнородные данные от роботов, людей, симуляций и сканирования реального мира в единую схему аффордансов с языковыми метками, масками и объектно-центрированными трехмерными метками движения. Мы оцениваем нашу модель по трем аспектам: для сегментации аффордансов наша модель значительно превосходит все базовые методы на 8 тестовых наборах из 4 эталонов, улучшая средний gIoU/cIoU на +23,9/+26,3; для предсказания точек контакта она дает существенно более точные точки с приростом точности попадания на 12,7–61,3% по сравнению с лучшим базовым методом; а для трехмерного движения она достигает наилучших результатов на всех трех тестовых наборах. Наша модель может быть развернута для реальной роботизированной манипуляции без дообучения под конкретное воплощение робота или использования эвристик, специфичных для задачи, демонстрируя способность адаптироваться к задачам аффордансов в открытом мире. Страница проекта: https://www.zhaoningwang.com/AFUN
Многоразовые навыки представляют собой ключевой механизм расширения возможностей агентов, позволяя им накапливать опыт и решать всё более сложные задачи. Однако большинство существующих методов обучения навыкам хранят многоразовый опыт в виде исключительно текстовых ресурсов, таких как инструкции, цепочки рассуждений или обобщённые траектории. Мы утверждаем, что эта парадигма, основанная только на тексте, создаёт фундаментальное узкое место для задач, ориентированных на визуальное восприятие, где многоразовые знания часто зависят от пространственного расположения, визуальной привязки, детализированного внешнего вида и локальных изменений состояния. Для преодоления этого ограничения мы предлагаем \NAME — мультимодальную парадигму навыков, объединяющую декларативную текстовую логику с явной визуальной поддержкой. Мы выделяем три формы многоразового использования: статические априорные знания для устойчивых пространственных конвенций, динамические априорные знания для оперативной визуальной рабочей памяти, а также встроенные визуальные навыки, связывающие упорядоченные текстовые шаги с исходными кадрами, снимками экрана или областями страницы, которые их обосновывают. Визуальные навыки не просто описывают, что делать, но и кодируют, куда смотреть, как исследовать и как проверять визуальные результаты. Для масштабирования построения визуальных навыков мы представляем \SYSTEM — автоматическую систему, преобразующую опыт агента в многоразовые мультимодальные навыки путём сохранения текстовых рассуждений, пространственных ссылок, визуальных границ и паттернов взаимодействия из траекторий выполнения задач. Эксперименты на задачах с графическим интерфейсом и других визуально-ориентированных задачах показывают, что визуальные навыки последовательно превосходят навыки, основанные только на тексте, особенно когда успех требует пространственного соответствия, визуальных доказательств и взаимодействия с учётом состояния. Эти результаты подтверждают нашу ключевую позицию: многоразовые навыки агентов должны выходить за рамки текста и становиться мультимодальными ресурсами для будущих мультимодальных агентов.
Модели зрения-языка (VLM) демонстрируют высокую способность к визуальному пониманию и все чаще применяются в воплощенных системах ИИ, где надежное восприятие в реальных условиях имеет решающее значение. Однако существующие эталоны оценивают VLM с использованием чистых изображений или изолированных возмущений, а не стрессов, вызванных физическим формированием сцены. Такая конструкция имеет два ограничения: она охватывает лишь узкое подмножество повседневных визуальных стрессов, а некоторые возмущения редко встречаются в реалистичных воплощенных сценах. Этот пробел ставит фундаментальный вопрос: как можно принципиально определить визуальный стресс, чтобы охватить разнообразные факторы, встречающиеся в физических средах? Чтобы ответить на этот вопрос, мы формулируем визуальное восприятие с точки зрения обратной графики и представляем RoboStressBench — эталон для оценки устойчивости VLM к физическому визуальному стрессу в воплощенных сценах. Вдохновленный физическим уравнением рендеринга, RoboStressBench разлагает визуальный стресс на четыре физически обоснованных измерения: материал (M), точка обзора (V), освещение (L) и геометрия (G). Такая конструкция позволяет RoboStressBench охватывать широкий спектр визуальных стрессов в реальных условиях, одновременно обеспечивая контролируемый анализ их влияния на способности VLM, такие как визуальное распознавание, рассуждение и планирование. В ходе всесторонней оценки современных VLM мы выявляем специфические для стресса режимы отказов и обнаруживаем, что разные физические факторы по-разному ухудшают различные воплощенные способности, что часто скрывается совокупной точностью. Мы также представляем агентный решатель, учитывающий стресс, который обнаруживает визуальные стрессоры и вызывает навыки визуального редактирования перед рассуждением, повышая устойчивость в сценариях с высоким стрессом. В целом, RoboStressBench предоставляет принципиальную основу для оценки диагностики и улучшения восприятия VLM в условиях реального физического стресса, поддерживая разработку более надежных воплощенных систем ИИ.
Крупные мультимодальные модели зрения-языка (LVLMs) преобразуют визуальные входные данные в плотные последовательности токенов, что создаёт квадратичное вычислительное узкое место при инференсе. Эластичное сжатие визуальных токенов решает эту проблему путём обучения единой модели, способной работать при разных бюджетах визуальных токенов. Однако существующие подходы дают сбои при агрессивном сжатии. Сжатие только по пространству, как при вложенном объединении, ведёт себя как несовершенный фильтр нижних частот и вызывает спектральный алиасинг, скрывающий мелкие детали. Сжатие только по запросам, как при вложенной передискретизации запросов, заменяет явные токены, привязанные к сетке, нелокальными сводками и существенно ухудшает пространственную привязку. Для разрешения этого конфликта представлений мы представляем PARCEL (Pool‑Anchored Resampling with Conditioned Elastic Queries for Efficient Vision‑Language Understanding — передискретизация с якорями пула и условными эластичными запросами для эффективного понимания зрения-языка) — архитектуру токенизации визуальных данных, которая динамически распределяет работу по извлечению признаков. PARCEL устанавливает пространственные токены пула в качестве низкочастотных якорей макета и обуславливает эластичные токены запросов этими якорями через передискретизацию запросов с условием от пула. Это побуждает токены запросов фокусироваться на дополнительных визуальных признаках, а не на избыточном пространственном отображении. Обширные оценки на 27 эталонных тестах показывают, что PARCEL улучшает границу Парето производительности и эффективности, последовательно превосходя существующие базовые линии «матрешки» при различных бюджетах визуальных токенов, сохраняя при этом парадигму «обучить один раз, развернуть где угодно».
Мультимодальные большие языковые модели (МБЯМ) демонстрируют высокие способности в восприятии, рассуждении и генерации действий. Однако их возможность поддерживать исследование в динамических открытых мирах остаётся неясной. Существующие воплощённые и игровые бенчмарки зачастую сжимают взаимодействие в задачи с коротким горизонтом или связывают успех со специфичными для игры механиками. В данной статье мы представляем бенчмарк MineExplorer для оценки способности агентов МБЯМ к исследованию открытого мира в Minecraft. Сначала мы отфильтровываем атомарные задачи, решения которых сильно зависят от специфических знаний Minecraft, чтобы лучше отражать общее рассуждение в открытых мирах. Затем мы организуем бенчмарк вокруг формулировки способностей в стиле ReAct и компонуем атомарные задачи в неявные многозвенные задачи. Для дальнейшего построения надёжных экземпляров MineExplorer использует многомодульный конвейер синтеза, который совместно проектирует графы задач, сцены песочницы и основанные на правилах оценщики этапов. Человеческая оценка показывает, что многомодульный конвейер синтеза создаёт значительно более надёжные экземпляры, чем одномодульный базовый метод. Эксперименты с продвинутыми агентами МБЯМ показывают, что исследование открытого мира остаётся сложной задачей: сильные модели справляются со многими однозвенными задачами, но их производительность резко падает, когда необходимо координировать скрытые предпосылки на более длинных траекториях. Дальнейший анализ показывает, что сложность задачи коррелирует с завершением агентом, а более крупные модели или режимы мышления не всегда приводят к улучшению производительности. Код и набор данных доступны по адресу https://github.com/Jometeorie/MineExplorer.
Модели «зрение-язык-действие» (VLA) строятся на предпосылке, что семантическое понимание, полученное из предобученных языковых или зрительно-языковых основ, должно направлять предсказание действий робота. Однако тонкая настройка робота оптимизируется как имитация по распределениям действий, специфичным для задачи, а многие оценки могут быть решены с использованием визуальных или инструкционно-действенных упрощений. Мы представляем RoboSemanticBench (RSB) — воплощённый бенчмарк для диагностики семантической привязки в предсказании действий: способны ли пост-обученные VLA модели использовать сложную семантику инструкций для выбора и манипуляции правильным физическим объектом. В каждом эпизоде робот получает вопрос с множественным выбором по математике или общим знаниям, наблюдает блоки-кандидаты с ответами и должен захватить блок, соответствующий правильному ответу. RSB охватывает контролируемую арифметику, понимание математики на уровне начальной школы, а также понимание фактов или здравого смысла в наборах с четырьмя и десятью вариантами. При оценке репрезентативных VLA-моделей мы обнаруживаем, что многие политики обучаются захватывать блоки-кандидаты, но выбирают семантически правильный блок с почти случайными или ниже случайных показателями после контроля за успешностью захвата, что выявляет устойчивый разрыв между семантической компетентностью на уровне основы и предсказанием действий.
Выбор наилучшего ответа из множества выборок малой модели с помощью более сильного оценщика — это простая стратегия времени вывода, но она не работает, когда малая модель уже выбрала неверные пути рассуждений. Поиск с направляющей PRM позволяет избежать этого, оценивая продолжения-кандидаты в процессе генерации, но требует модели вознаграждения, обученной на пошаговых метках. Мы предлагаем направленное порождение на уровне фрагментов — альтернативу без обучения, которая использует готовую большую языковую модель в качестве оценщика процесса. На каждом шаге малая модель выбирает k фрагментов-кандидатов фиксированной длины, а большая модель оценивает кандидаты с помощью правдоподобий, не генерируя никакого текста. Выбранный фрагмент фиксируется перед следующим шагом, направляя генерацию до того, как ошибки успеют распространиться. Мы реализуем эту структуру с двумя правилами отбора: отбор на основе правдоподобия (LGS), который выбирает фрагмент с наибольшей нормированной по длине логарифмической вероятностью большой модели, и контрастивный отбор (CGS), который вычитает логарифмическую вероятность малой модели, чтобы отдать предпочтение фрагментам, где предпочтения большой модели расходятся с предпочтениями малой модели. Мы показываем, что оценка шагов рассуждений переменной длины с помощью правдоподобий большой модели ненадёжна из-за систематического смещения по длине, сохраняющегося даже после нормировки по длине, и что фрагменты фиксированной длины позволяют избежать этого искажения. На наборах GSM8K, MATH, Minerva Math, AMC23 и AIME24 с Qwen2.5-1.5B при направлении от Qwen2.5-32B и Llama-3.2-1B при направлении от Llama-3.1-70B CGS превосходит мажоритарное голосование на величину до 28 п.п. и при сопоставимых бюджетах на направление достигает или превосходит результаты поиска с направляющей Qwen2.5-Math-PRM-72B на большинстве бенчмарков без обучения модели вознаграждения. При Qwen2.5-7B с направлением от Qwen2.5-72B CGS достигает 81,8% на MATH и 63,6% на Minerva Math при k=16, превосходя мажоритарное голосование на 4–6 п.п. Наконец, направленное порождение на уровне фрагментов даёт существенно более короткие цепочки рассуждений, чем поиск с направляющей PRM.
Агенты использования компьютера (CUA) сегодня в основном применяются как одиночные последовательные агенты. Такая конфигурация неоптимальна для сложных долгосрочных задач, которые выигрывают от декомпозиции задач, параллельного выполнения и последовательного перепланирования на основе новой информации. В данной статье мы утверждаем, что следует перейти к оценке и построению мультиагентных систем использования компьютера (MACU). Эти системы, делающие упор на планирование и параллельное выполнение, устраняют многие недостатки одиночных CUA. Мы предлагаем общую мультиагентную настройку, в которой модель-менеджер декомпозирует задачи использования компьютера в виде направленного ациклического графа (DAG), кодируя соответствующие зависимости и цели для подчиненных агентов. На каждой итерации менеджер отправляет параллельных подчиненных CUA для выполнения узлов на готовом фронте DAG и непрерывно пересматривает DAG (добавляя, отменяя или переписывая узлы) по мере поступления новых данных от подчиненных агентов. Такая конструкция рассматривает частично наблюдаемую среду использования компьютера как первостепенную проблему: информация, которую последующие агенты могут быть не в состоянии повторно наблюдать, сохраняется и передается через менеджера и структуру DAG. Мы демонстрируем, что MACU стабильно превосходит сильные одиночные базовые модели на 3,4–25,5% на эталонах для настольных сред (OSWorld) и веб-навигации (Online-Mind2Web, WebTailBench, Odysseys), демонстрирует более благоприятное масштабирование во время тестирования и решает сложные долгосрочные задачи, в которых одиночные CUA застревают. В рамках долгосрочного эталона веб-навигации Odysseys MACU улучшает среднее астрономическое время завершения задачи примерно в 1,5 раза, что подтверждает его эффективность в ускорении традиционно медленных конвейеров CUA. Наши результаты подчеркивают, что мультиагентная координация является перспективным направлением для масштабирования агентов использования компьютера с целью более продуктивной и эффективной работы. Все код и интерактивные визуализации доступны по адресу https://jykoh.com/multi-agent-computer-use.
Измерение структурированного понимания объектов в фундаментальных моделях зрения остаётся сложной задачей из-за несогласованных протоколов оценки и ограниченного контроля на уровне частей. Семантическое соответствие (SC) оценивает эту способность, проверяя, могут ли части объектов быть сопоставлены между различными экземплярами и категориями при значительных вариациях внешнего вида, ракурса и геометрии. Для обеспечения систематической оценки SC мы представляем SOCO — новый бенчмарк для семантического соответствия объектов, который вводит таксономию типов соответствия и предоставляет согласованные, функционально значимые аннотации ключевых точек по 100 категориям и более 1 миллиона пар соответствия. Кроме того, SOCO включает текстовые описания ключевых точек, что позволяет оценивать большие модели зрения и языка (LVLM) и их детальное понимание на уровне частей. Всесторонние эксперименты показывают, что (i) базовые архитектуры моделей зрения кодируют сильную семантическую структуру, но плохо переносят соответствия между родственными категориями и лишь частично улавливают положение частей объектов; (ii) LVLM более сильны в локализации частей по текстовому запросу, чем в кросс-изображенческом сопоставлении по визуальному референсу, что выявляет разрыв между локализацией на основе языка и детальным визуальным соответствием; и (iii) качество соответствия предсказывает производительность на плотных downstream-задачах, включая сегментацию, отслеживание, оценку 3D-позы и 3D-обнаружение, более сильно, чем классификация ImageNet. В совокупности эти результаты позиционируют SOCO как бенчмарк для оценки качества структурированных представлений на уровне частей в моделях зрения и мультимодальных фундаментальных моделях.
Метод разобучения (unlearning) больших языковых моделей (БЯМ) стал важнейшим постфактум-механизмом для защиты конфиденциальности и обеспечения безопасности ИИ, однако проверка того, действительно ли целевая информация удалена, остается сложной задачей. Существующие метрики на уровне выходов неспособны выявить случаи, когда эти знания остаются восстанавливаемыми из внутренних представлений. Недавние исследования в парадигме "белого ящика" обнаруживают такие остаточные знания, но часто опираются на вспомогательное обучение или адаптации под конкретный набор данных, не предлагая обобщаемой метрики. Для преодоления этих ограничений мы предлагаем метрику Оценка глубины разобучения (Unlearning Depth Score, UDS), которая количественно измеряет механистическую глубину разобучения с помощью подстановки активаций. UDS сначала определяет слои, кодирующие целевые знания, с использованием базовой неизмененной модели, а затем оценивает степень их удаления в разобученной модели по шкале от 0 до 1. В мета-оценке 20 метрик на 150 разобученных моделях, полученных 8 методами, UDS продемонстрировал наивысшую точность и устойчивость, подтверждая, что наш каузальный подход является наиболее надежным для оценки разобучения. Анализ конкретных случаев дополнительно показывает, что метрики "белого ящика" могут расходиться на уровне слоев, а глубина удаления варьируется между примерами. Мы предоставляем рекомендации по интеграции UDS в существующие бенчмарки и оптимизации процесса оценки. Код и данные доступны по адресу https://github.com/gnueaj/unlearning-depth-score.
Понимание изображений диаграмм и таблиц имеет важное значение для применения моделей зрения-языка (VLMs) в анализе реальных документов. Хотя англоязычные бенчмарки быстро развиваются, их неанглоязычные аналоги остаются малочисленными, что оставляет неясным, обобщается ли этот прогресс на другие языки. Ключевым препятствием является сложность сбора реалистичных и разнообразных неанглоязычных изображений диаграмм и таблиц в масштабе. Для решения этой задачи мы используем правительственные доклады как масштабируемый источник для построения бенчмарков за пределами английского языка, поскольку они содержат естественно встречающиеся диаграммы и таблицы различных форматов и областей и свободно доступны во многих странах. В качестве первой реализации мы представляем HakushoBench — сложный японский бенчмарк VQA по диаграммам и таблицам, построенный на основе 33 правительственных докладов. HakushoBench содержит 2 053 изображения, охватывающие более 10 типов изображений, с вручную аннотированными парами вопрос–ответ, предназначенными для оценки глубокого и целостного понимания диаграмм и таблиц, а не только локальных визуальных подсказок. Эксперименты с широким спектром VLM показывают, что HakushoBench остается сложным для моделей с открытым весом: лучшая модель с открытым весом достигает лишь 58,6% точности, а разрыв в 34,9 пункта между моделями с открытым весом и проприетарными моделями подчеркивает существенный потенциал для улучшения в сложном понимании диаграмм и таблиц. Мы публикуем наш набор данных и код.
Истинный видеоинтеллект требует не только распознавания видимого: он нуждается в рассуждении о причинах разворачивающихся событий, предсказании того, что изменилось бы при других условиях, и принятии решений о дальнейших действиях. Такую прогрессию — от восприятия через каузальное рассуждение и симуляцию к стратегическому планированию — мы называем стратегическим видеоинтеллектом (СВИ, от англ. Strategic Video Intelligence). Ни один существующий бенчмарк не оценивает этот стек способностей: видеозаписи из реального мира лишены проверяемой истинной разметки для каузальных и стратегических вопросов, а синтетические среды жертвуют сложностью реальных мультиагентных систем. Чтобы восполнить этот пробел, мы представляем SVI-Bench — крупномасштабный бенчмарк, который использует командные виды спорта в качестве динамического микромира, сочетая сложность реального многолетнего взаимодействия (10–22 агента, принимающих скоординированные решения в условиях противодействия) с верифицируемостью явных правил и однозначных результатов. SVI-Bench включает примерно 35 000 часов трансляций, 15 миллионов размеченных действий, 15 000 часов экспертных комментариев, 23 000 отчётов о матчах и 103 000 структурированных статистических записей по баскетболу, футболу и хоккею — всё это создано с помощью движка данных, который преобразует сырые игровые данные в плотно перекрёстно-связанный корпус. Мы организуем оценку по 9 задачам, охватывающим прогрессивную четырёхуровневую иерархию: понимание динамических сцен, каузальное рассуждение, стратегическая симуляция и агентный синтез. Оценивая сильные мультимодальные и агентные базовые модели, мы обнаруживаем пропасть в возможностях: модели компетентно справляются с перцептивными задачами, достигая примерно 73% точности на вопросах по мелкозернистым действиям, но резко ухудшают результаты на каждом последующем когнитивном уровне. Агентные задачи оказываются самыми сложными: даже сильнейшая модель достигает лишь 5% точности, когда требуется автономно собирать и интегрировать свидетельства из корпуса из 1,8 миллиона клипов.
Агентский поиск требует от агентов на основе языковых моделей изучения множества источников и ответа на сложные информационно-поисковые вопросы. Масштабирование вычислительных ресурсов во время тестирования является перспективным способом улучшения таких агентов, однако текущие подходы могут давать сбои, поскольку правильные ответы часто редки, а отбор на основе оценки зависит от калибровки модели. Мы предлагаем FineVerify — фреймворк мелкозернистой самопроверки, который разбивает каждый вопрос на проверяемые подвопросы, верифицирует сгенерированные кандидаты по каждому подвопросу и выбирает кандидата с наибольшей агрегированной оценкой. Такая структура проверки по каждому пункту превращает отбор в более простые локальные суждения и формирует оценки на основе единых явных критериев. На четырех бенчмарках агентского поиска и двух моделях FineVerify стабильно превосходит стандартные базовые методы масштабирования. При использовании всего четырех сгенерированных траекторий он улучшает GPT-5-mini на 8,2 процентных пункта точности, а Gemini-3-flash — в среднем на 5,6%. При 12 выборках FineVerify позволяет GPT-5-mini превзойти фронтирную модель GPT-5 на BrowseComp-Plus. Помимо точности, FineVerify формирует интерпретируемые следы верификации, которые помогают выявлять ошибки в бенчмарках, что открывает более широкие возможности применения для инспекции систем агентского поиска. Код и данные доступны по адресу https://github.com/XuZhao0/fineverify.
Системы физического ИИ всё чаще преобразуют мультимодальные наблюдения, языковые инструкции и изученные представления мира в физически значимые действия. Фундаментальные модели робототехники, модели «зрение–язык–действие» и автономные системы, основанные на моделях мира, могут обусловливать решения, которые управляют транспортными средствами, роботами, дронами и промышленными машинами. Такой переход выявляет проблему безопасности, которая не полностью охватывается ни традиционной модерацией контента в ИИ, ни классической робототехнической безопасностью: «чёрный ящик» модели может выдавать физически значимое действие, при этом выглядеть уверенным, правдоподобным и семантически согласованным. Возникающий сбой может быть скрытым, возникая из-за дрейфа датчиков, окклюзии, ошибки оценки состояния, смещения распределения, галлюцинированных аффордансов или неверных физических допущений ещё до того, как нижележащие аппаратные контроллеры обнаружат нарушение. В области воплощённых фундаментальных моделей, моделей мира, симуляции робототехники, бенчмарков безопасности воплощённых систем, безопасного управления, гарантий времени выполнения, оценки неопределённости, верификации и оценки защитных механизмов, возможности моделей и механизмы безопасности развивались в основном по отдельным техническим траекториям. Обобщённый здесь повторяющийся разрыв заключается в том, что ни одно из рассмотренных в данном обзоре направлений не предоставляет полной границы авторизации времени выполнения между «чёрными ящиками» физических моделей ИИ и физическим исполнением. На основе этого анализа разрабатывается ограниченная постановка задачи, определение скрытого отказа физического действия, таксономия функций защитных ограничителей времени выполнения и требования к оценке для сравнения таких ограничителей как механизмов обеспечения безопасности физического ИИ.
Обучение с подкреплением на основе верифицируемых вознаграждений (RLVR) стало ключевым методом постобучения больших языковых моделей (LLM). В то время как оптимизация политики движется всеми семплированными токенами под глобально транслируемым скалярным вознаграждением, гетерогенное поведение политики, проявляющееся вдоль траекторий, в значительной степени остается без дифференциации. Существующие работы решают эту проблему путем распределения кредита доверия, включая перевзвешивание преимуществ на уровне токенов и селективную оптимизацию токенов; однако критерии распределения остаются в основном стационарными на протяжении обучения, что ограничивает гибкое развитие политики. В данной работе мы утверждаем, что то, когда сигналы обучения планируются, может быть так же важно, как и то, где они распределяются между токенами, и вводим временное измерение, позволяющее планировать критерии распределения кредита доверия в ходе оптимизации RLVR. Мы обнаружили, что приоритизация целевых токенов, акцентированных определенным поведением политики, с последующим постепенным ослаблением в сторону общей оптимизации приводит к более стабильной и эффективной динамике обучения. Кроме того, мы показываем, что простые процентили траекторий дают естественную перспективу для различения поведения политики и эффективно работают с временным планированием. Наш анализ показывает, что стандартная оптимизация существенно жертвует энтропией политики при одновременном учете гетерогенных поведений, тогда как временное планирование приводит к более здоровой динамике развития политики. Эксперименты на бенчмарках математических и общих рассуждений демонстрируют последовательные улучшения, что позволяет предположить, что временное планирование представляет собой многообещающее измерение оптимизации.
Вложения предложений являются фундаментальным компонентом для семантического поиска, кластеризации, классификации и генерации с дополнением извлечением. В данной работе представлена модель вложений предложений embeddingmagibu-200m, ориентированная на турецкий язык, которая генерирует 768-мерные L2-нормализованные векторы и поддерживает окно контекста в 8192 токена, значительно превышая ограничение в 512 токенов, характерное для более ранних кодировщиков турецкого языка на основе BERT. Вместо полного предобучения предлагается эффективный трехэтапный конвейер адаптации: (1) создание оптимизированного для турецкого языка многоязычного токенизатора со словарём объёмом 131072 путём удаления избыточных токенов из словаря учителя и включения многоязычных токенов на основе частотного анализа корпуса на 40 языках; (2) клонирование модели вложений учителя с сохранением весов трансформерного бэкбона и инициализацией совместимой таблицы вложений для нового словаря посредством отображения токенов на основе среднего состава; (3) автономная дистилляция вложений из предварительно вычисленных векторов учителя с использованием целевой функции косинусного сходства на сбалансированном корпусе Википедии на 40 языках. Полученная модель ученика содержит примерно 200 миллионов параметров и обучается примерно за четыре часа на одном графическом процессоре благодаря отсутствию необходимости в инференсе учителя в реальном времени во время обучения, при общей стоимости 5–20 долларов. Эмпирически получены корреляции Пирсона/Спирмена 77,55%/77,45% на STSbTR, превосходящие модель учителя с 300 миллионами параметров (73,84%/72,92%). На TR-MTEB (26 задач) достигнут средний балл 63,9% (7-е место среди 26 моделей), что обеспечивает конкурентоспособный компромисс между стоимостью и качеством при количестве параметров на 33% меньше, чем у учителя. Для обеспечения воспроизводимости и последующего использования опубликованы все артефакты, включая веса моделей, файлы токенизатора, предварительно вычисленные наборы данных вложений, а также инструменты с открытым исходным кодом для клонирования и дистилляции.
Процедурное 3D-моделирование с помощью кода становится универсальной парадигмой, обеспечивая детерминированные, готовые к использованию в движке и точно редактируемые активы, которых по своей сути лишены нейросетевые 3D-генераторы. Однако создание такого процедурного контента требует глубоких знаний API программ для 3D-моделирования, параметрического проектирования и геометрических рассуждений на уровне кода. В данной статье мы предлагаем 3DCodeBench — систематический бенчмарк для оценки агентов на основе моделей зрения и языка (VLM) при процедурной 3D-генерации в средах 3D-моделирования. В частности, 3DCodeBench оценивает, насколько эффективно 12 современных VLM могут выступать в роли процедурных 3D-модельеров, преобразуя текстовые и графические референсы в процедурный код для программ 3D-моделирования. Признавая, что автоматические метрики могут не полностью отражать перцептивное качество 3D-форм, мы создали 3DCodeArena — платформу ранжирования на основе попарных предпочтений людей по отношению к сгенерированным 3D-результатам. По итогам обширных оценок и анализа мы выявили следующее: (1) Сбои в основном возникают из-за несоответствия API, при этом даже успешно рендеренные объекты страдают от разрозненных или плавающих 3D-геометрических компонентов. (2) Масштабирование во время тестирования, такое как увеличение бюджета на обдумывание и многоэтапное уточнение, в целом повышает производительность. Наши выводы подчёркивают критическую необходимость в высококачественных данных процедурного кодирования для совершенствования коммерческих VLM. Кроме того, эффективное процедурное 3D-моделирование требует надёжной среды выполнения, обеспечивающей высокоточную обратную связь для итеративного уточнения. Мы публикуем 3DCodeBench, включающий курируемый крупномасштабный набор мультимодальных (текст/изображение) промптов, процедурного кода, триплетов 3D-объектов, протокол оценки, а также общедоступную платформу 3DCodeArena в качестве фундаментального набора инструментов для исследования процедурных 3D-модельеров на основе VLM.
По мере того как реальные приложения всё чаще требуют обработки входных данных длиной свыше 100 000 токенов, разрыв между длиной контекста и эффективностью вывода становится критическим узким местом. Сжатие контекста позволяет снизить затраты на предварительное заполнение (prefill), сохраняя точность решения задач. Однако существующие методы, основанные на механизме внимания и не требующие обучения, оставляют существенные пробелы в сложных задачах с длинным контекстом, таких как рассуждение о коде. Мы представляем LongAttnComp — адаптацию AttnComp для длинного контекста, которая дообучает лёгкий слой оценки кросс-внимания и вводит поблочную обработку на уровне токенов (token-level chunking), алгоритм top-p с бюджетом токенов, переупорядочивание позиций и синтаксический анализатор запросов, не зависящий от формата. Дополнительно мы разрабатываем двухэтапный рецепт дообучения компрессора: этап 1 формирует общую поисковую основу на данных в стиле NIAH, а этап 2 расширяет её многошаговыми и рассуждающими данными для более широкого охвата задач с длинным контекстом. На InfiniteBench Code-Debug LongAttnComp достигает или превосходит точность полного контекста, значительно опережает базовые методы без обучения и переносится на четыре целевые модели из трёх семейств. На LongBench v2 двухэтапный рецепт в значительной мере устраняет разрыв этапа 1 в многодокументном рассуждении, сохраняя при этом производительность на Code-Debug.
Данная работа решает задачу интеграции трёхмерных сеток как нативной модальности в мультимодальные большие языковые модели (MLLM). Основанные на диффузии крупные реконструкционные модели отделяют семантическое понимание от геометрического мышления, функционируя как не имеющие состояния реконструкторы, зависящие от плотных двумерных пиксельных априорных данных. Недавние методы на основе MLLM рассматривают трёхмерную модальность как внешний вывод, а не как нативный компонент мультимодальной последовательности, внося инкрементальные адаптации без систематического анализа того, как геометрические многообразия согласуются с пространствами признаков MLLM. Мы представляем EVA01 — унифицированную структуру, расширяющую границы модальности MLLM для нативного включения понимания, генерации и контекстно-зависимого редактирования трёхмерных сеток. Построенная на архитектуре Mixture-of-Transformers (MoT), EVA01 разделяет модель на предварительно обученного эксперта понимания (E_{und}) и структурно зеркального эксперта генерации (E_{gen}), связанных через общее глобальное самовнимание с жёсткой маршрутизацией модальностей. Такая конструкция согласует семантическое латентное пространство основы MLLM с геометрическим многообразием, обеспечивая прямую передачу мультимодальных априорных данных без промежуточных двумерных представлений. Результаты показывают, что EVA01 достигает современного качества нативной генерации текста в трёхмерные объекты и открывает возможности для надёжного многократного геометрического редактирования с сохранением идентичности в длинных контекстах — возможности, принципиально недоступной для конвейеров реконструкции без состояния. Наши выводы также дают архитектурные идеи для интеграции двумерных фундаментальных моделей с трёхмерными задачами, определяя проектирование нативных трёхмерных мультимодальных систем. Страница проекта: https://www.seeles.ai/research/pages/EVA01
Академическим исследователям необходимы эффективные и надежные методы сбора высококачественной информации из проверенных источников, однако современные инструменты для ИИ-ассистированных исследований всё еще страдают от склонности больших языковых моделей (LLM) к выдаче фактически неточных или бессмысленных результатов, обычно называемых галлюцинациями. Мы применяем экстрактивную систему ответов на вопросы VerbatimRAG к научным статьям из сборника ACL Anthology, напрямую сопоставляя пользовательские запросы с дословными текстовыми фрагментами в извлеченных документах. Мы предоставляем новый набор эталонных данных для задачи сопоставления пользовательских запросов с релевантными текстовыми фрагментами в научных статьях и используем его для обучения и оценки различных экстрактивных моделей. Аннотирование выполняется исследователями в области NLP на основе синтетических пользовательских запросов, сгенерированных с помощью специального конвейера, основанного на методологии ScIRGen, в паре с фрагментами научных статей, извлеченными с помощью VerbatimRAG. На этом эталоне классификатор токенов ModernBERT с 150 миллионами параметров, обученный на серебряном контроле от нашего конвейера, достигает лучшего показателя F1 на уровне слов (53,6), опережая сильнейший оцененный экстрактор на основе LLM (48,7).
SwiGLU стал стандартной активацией с гейтированием в современных трансформерных MLP, однако его резкость гейта — плавность и избирательность функции гейтирования — обычно фиксирована на протяжении обучения. В данной работе мы предлагаем Confidence-Aware SwiGLU (κ-SwiGLU), вариант SwiGLU для моделей смеси экспертов (MoE), который регулирует резкость гейта экспертов в зависимости от уверенности маршрутизации на уровне токенов. В частности, κ-SwiGLU параметризует коэффициент резкости гейта SiLU как обучаемую функцию логита маршрутизатора, позволяя каждому элементу гейта эксперта интерполировать между плавным, широко активирующим гейтированием и резким, селективным гейтированием. Мы оцениваем κ-SwiGLU на наборе данных FineWeb-Edu на моделях трансформеров MoE с 8 по 28 слоев. Во всех этих конфигурациях κ-SwiGLU улучшает среднюю производительность CORE, добавляя незначительное количество параметров и внося лишь небольшой вычислительный оверхед, что демонстрирует перспективность механизма резкости гейта, зависящего от уверенности, для улучшения MoE MLP. Код доступен по адресу https://github.com/askerlee/kappa-swiglu.
Агенты глубокого исследования продемонстрировали высокую эффективность в многоэтапном поиске информации, рассуждении и генерации объемных отчетов, однако существующие эталонные тесты и системы остаются преимущественно текстоцентричными, с ограниченной оценкой достоверности визуальных элементов и их согласованности с окружающим анализом. Для устранения этого пробела мы представляем TVIR (Text–Visual Interleaved Report Generation — генерация отчетов с чередованием текстовых и визуальных компонентов), включающий TVIR-Bench — эталон из 100 тщательно отобранных экспертами мультимодальных задач глубокого исследования, требующих использования визуальных элементов для достижения конкретных аналитических подцелей, и TVIR-Agent — иерархическую мультиагентную структуру, служащую сильным базовым подходом для составления планов, извлечения изображений, создания диаграмм с прослеживаемыми источниками и написания отчетов с учетом контекста. Мы также разработали двухканальную систему оценки, объединяющую текстовую и визуальную оценки. Эксперименты с девятью системами глубокого исследования показывают, что TVIR-Agent достигает высоких общих результатов, подчеркивая важность явного мультимодального проектирования и оценки для формирования отчетов на основе фактов.
Эффективная помощь в реальных условиях требует от ИИ-агентов развитой модели психического состояния (ToM): способности выводить ментальные состояния человека на основе его поведения. Несмотря на недавние достижения, остаётся ряд ключевых проблем, включая (1) онлайн-вывод с устойчивым обновлением неопределённости по множеству гипотез; (2) эффективные рассуждения, пригодные для помощи в реальном времени; и (3) отсутствие аннотаций истинных ментальных состояний в реальных областях. Мы решаем эти проблемы с помощью MindZero — самообучающейся архитектуры обучения с подкреплением, которая обучает мультимодальные большие языковые модели (MLLM) эффективному и устойчивому онлайн-ментальному рассуждению. В процессе обучения модель получает вознаграждение за генерацию гипотез о ментальных состояниях, которые максимизируют правдоподобие наблюдаемых действий, оценённое планировщиком, подобно модельному ToM-рассуждению. Таким образом, этот метод устраняет необходимость в явных аннотациях ментальных состояний. После обучения MindZero интериоризирует модельное рассуждение в быстрый однопроходный вывод. Мы оцениваем MindZero по сравнению с базовыми методами на задачах сложного ментального рассуждения и ИИ-помощи в области сеточных миров и домохозяйств. Мы обнаружили, что только LLM недостаточны; модельные методы повышают точность, но медленны, дороги и ограничены ёмкостью базовой MLLM. Напротив, MindZero усиливает внутреннюю способность ToM у MLLM и значительно превосходит модельные методы как по точности, так и по эффективности, показывая, что ментальное рассуждение может быть эффективно освоено как самообучаемый навык.
Несмотря на быстрый прогресс моделей типа «текст-в-изображение» (T2I), создание изображений, точно отражающих сложные композиционные промпты (включая привязку атрибутов, отношения объектов, счет), по-прежнему остается сложной задачей. Для решения этой проблемы мы предлагаем BiDPO — фреймворк, повышающий способность T2I-моделей к композиционной генерации изображений. Мы начинаем с внедрения тщательно разработанного конвейера для создания крупномасштабного набора данных предпочтений BiComp со строгим контролем качества. Затем мы расширяем Diffusion DPO для совместной оптимизации предпочтений изображений и текста, что, как показано, весьма эффективно для улучшения способности моделей следовать сложным текстовым промптам при генерации. Для дальнейшего улучшения тонко-зернистого согласования моделей мы применяем метод направляющих на уровне регионов, фокусируясь на областях, релевантных композиционным концепциям. Экспериментальные результаты демонстрируют, что наш BiDPO существенно повышает композиционную точность, стабильно превосходя предыдущие методы по нескольким бенчмаркам. Наш подход подчеркивает потенциал тонкой настройки на основе предпочтений для сложных задач преобразования текста в изображение, предлагая гибкую и масштабируемую альтернативу существующим методам.
Видео-мировые модели (WMs) продемонстрировали перспективность для оценки и улучшения политик путем воображения реалистичных будущих наблюдений, обусловленных действиями эго-робота. Хотя WMs могут моделировать распределения будущих состояний, оценка и улучшение политик обычно опираются на номинальные воображения, что может упускать высоковлиятельные исходы действий робота, если не использовать чрезмерно большое количество выборок. Для обеспечения робастной оценки и улучшения политик на основе воображений WMs мы предлагаем StressDream, который направляет воображения к высоковлиятельным, но правдоподобным исходам, задаваемым во время инференса, путем оптимизации начального шума диффузионных WMs. Однако оптимизация многомерного шума сложна: оптимизация должна учитывать нюансы целевых событий, зависящих от сцены, в генерируемых видео, избегая при этом выхода за пределы распределения (OOD) шума, дающего неправдоподобные воображения. Мы решаем эту проблему с помощью двух взаимодополняющих целей: семантической цели с визуально-языковой моделью, которая предоставляет информативные градиенты, рассуждая о сгенерированном видео, и цели правдоподобия, предотвращающей дрейф оптимизированного шума в OOD. Используя современные видео-мировые модели для автономного вождения и роботизированных манипуляций, мы показываем, что StressDream эффективно направляет воображения к высоковлиятельным, но правдоподобным исходам, задаваемым текстом во время инференса, таким как сбои задач, что позволяет проводить робастную оценку и улучшение политик путем выявления действий, чьи правдоподобные будущие состояния включают нежелательные исходы. Видео-результаты доступны по адресу https://junwon.me/StressDream/.
Мы представляем функциональную форму (называемую Единым законом масштабирования нейронных сетей (UNSL)), которая точно моделирует и экстраполирует масштабирующее поведение глубоких нейронных сетей при одновременном изменении множества измерений (т.е. как интересующая метрика оценки изменяется при одновременном варьировании числа параметров модели, размера обучающего набора данных, количества шагов обучения, количества шагов вывода, объема вычислений и различных гиперпараметров) для различных архитектур и для каждой из различных задач в разнообразном наборе исходных и последующих задач. Этот набор включает крупномасштабные задачи компьютерного зрения, обработки языка, математики и обучения с подкреплением. По сравнению с другими функциональными формами для масштабирования нейронных сетей, данная функциональная форма дает экстраполяции масштабирующего поведения, которые на этом наборе задач значительно точнее.
Системы прогностического физического ИИ генерируют развертки состояний, фрагменты действий и скрытые планы, однако низкая среднеквадратическая ошибка (RMSE) не гарантирует физическую выполнимость конкретного предложения. Мы формулируем физическую допустимость как интерфейс прогнозирования и управления: перед выполнением декодированное предложение рассматривается как кандидатная динамика и оценивается с помощью кинематических, динамических и непосредственно-составных горизонтных условий. Прохождение проверки не является сертификатом успешности задачи; отклонение выявляет нарушение заданной физической оболочки и дает причину на уровне компонентов. На платформе Hugging Face LeRobot PushT контролируемое опровержение показывает, что одномоментная прогностическая RMSE и стандартизированные динамические невязки достигают площади под кривой ошибок (AUC) 0.982 и 0.972, кинематические условия — AUC 0.592, а полный фильтр — AUC 0.957 с атрибуцией на уровне условий. В экспериментах с вмешательством на основе воспроизведения фильтры, основанные на невязках, и полный фильтр физической допустимости предотвращают 87–89% недопустимых предложений, сохраняя средний прогресс на уровне приблизительно 0.998.
大型语言模型通过生成冗长的显式推理令牌链来解决复杂问题。尽管这种方法有效,但它使得推理过程成本高昂、对长度敏感,并且局限于(离散的)自然语言。虽然潜在推理提供了一种连续的替代方案,但确定中间潜在状态的有用结构仍是一个悬而未决的挑战。本文中,我们将潜在推理形式化为模型预训练令牌嵌入空间内的几何路径逼近问题。我们提出了几何潜在推理(GLR),该方法使用轻量级转移头来预测嵌入空间中的迭代方向更新。以文本思维链轨迹为锚点,GLR学习逼近离散推理轨迹,同时允许偏离精确令牌嵌入的连续偏差。在使用Qwen3模型进行的数学推理基准评估中,我们发现了一种涌现现象:几何潜在推理在不设置显式长度目标的情况下,显著缩短了生成内容。通过用连续潜在步骤替代早期显式推理,模型通常能以更少的总生成步骤得出正确答案。这些发现表明,连续轨迹充当了紧凑的中间推理状态,揭示了潜在计算预算、输出长度和准确性之间的新权衡关系。
Диаграммы служат основным средством передачи количественной и реляционной информации, однако систематическая оценка моделей парсинга диаграмм остаётся сложной задачей. Существующие бенчмарки сосредоточены на узких типах диаграмм и практически не затрагивают структурные схемы, такие как блок-схемы и интеллект-карты, тогда как модели генерируют результаты в несовместимых форматах, а наборы данных редко включают изображения, напечатанные или нарисованные от руки, которые встречаются на практике. Для решения этих проблем мы представляем ChartArena — всеобъемлющий двуязычный бенчмарк, охватывающий восемь семейств диаграмм, включающих как числовые диаграммы, так и структурные схемы, каждое из которых оценивается в трёх визуальных сценариях: цифровые рендеры, печатные фотографии и фотографии, нарисованные от руки. Набор данных создаётся с помощью коллаборативного конвейера аннотации человек-агент с многоэтапной верификацией человеком для обеспечения надёжности аннотаций. Для обеспечения справедливого сравнения между моделями мы дополнительно разрабатываем независимый от формата протокол оценки, который отображает гетерогенные выходные данные в два канонических семантических пространства — нормализованное тройное представление и представление ориентированного графа — и оценивает их с помощью структурно-зависимых метрик. В ходе обширной оценки 26 ведущих MLLM мы наблюдаем три устойчивых результата: (i) передовые проприетарные модели, такие как Gemini 3.1 Pro, лидируют в целом, однако наиболее сильные системы с открытым исходным кодом быстро сокращают разрыв; (ii) модели парсинга документов достаточно хорошо справляются с числовыми диаграммами, но значительно отстают в работе со структурными схемами; (iii) экспертные парсеры диаграмм остаются ограниченными узкими семействами диаграмм. Для всех моделей особенно сложными остаются лепестковые диаграммы и сценарии с рукописными изображениями. Эти результаты показывают, что ChartArena выявляет явные пробелы в возможностях и предоставляет единую основу для будущего прогресса. ChartArena доступен публично по адресу https://github.com/pspdada/ChartArena.
Обратная графика — это давняя и сильно недоопределенная задача, направленная на восстановление изображений в виде редактируемых трехмерных сцен, которые можно рендерить, изменять освещение и которыми можно манипулировать. В данной работе мы исследуем, могут ли предварительно обученные визуально-языковые модели (VLM) выполнять исполняемую обратную графику непосредственно по одному изображению, восстанавливая сцену в виде редактируемой программы Blender, без использования специализированных фундаментальных моделей 2D или 3D, дифференцируемого рендеринга или многовидового контроля. Мы представляем стадийную исполняемую обратную графику (SEIG) — агентный фреймворк, который восстанавливает трехмерную сцену по одному изображению, последовательно уточняя факторы сцены, включая геометрию, материалы, композицию и освещение, непосредственно в пространстве исполняемого кода Blender. Мы оцениваем наш фреймворк на разнообразных сценах, используя ряд метрик реконструкции, охватывающих точность на уровне пикселей, перцептивную и семантическую точность. Наши эксперименты показывают, что стадийная реконструкция существенно улучшает точность реконструкции, подчеркивая важность декомпозиции задачи для исполняемой обратной графики с универсальными VLM. Наконец, мы демонстрируем различные последующие приложения, становящиеся возможными благодаря восстановленным редактируемым сценам Blender.
Мы описываем библиотеку математической финансов, построенную в ассистенте доказательств Lean 4 на основе Mathlib и пакета BrownianMotion. Она обширна: более двухсот теорем без пропусков, охватывающих одиннадцать областей — от теоретико-мерных основ стохастического исчисления в непрерывном времени через ценообразование деривативов до прикладной теории риска, портфельной теории и теории фиксированного дохода, — и, насколько нам известно, это самая всеобъемлющая машинно-проверенная разработка в области математической финансов на сегодняшний день. Широта — это контекст, а не суть. Две особенности делают её не просто каталогом. Она проникает в теорию непрерывных процессов достаточно далеко, чтобы построить интеграл Ито в L2 как ограниченную линейную изометрию и вывести, а не постулировать, меру рисково-нейтрального ценообразования. Кроме того, она проверяет свою собственную точность соответствия: каждый результат классифицируется по тому, как его формулировка в Lean соотносится с той математикой, которую он утверждает, а принудительное ограничение сборки фиксирует аксиомы, которые каждое доказательство фактически использует, так что читатель может точно видеть, что было доказано, а что было доказано только при добавленных гипотезах. Мы завершаем откровенным выводом: формальная база поверх классической финансовой математики даёт сертифицированное объединение известных результатов, а не новую финансовую теорию. Таким образом, вклад носит методологический и инфраструктурный характер: это повторно используемые верифицированные основы для математической финансов вместе с аудитом точности соответствия.
Мы представляем новую формулировку для бессеточного моделирования пониженного порядка деформируемых гиперупругих объектов. Существующие работы в области моделирования эластодинамики пониженного порядка представляют входную геометрию либо с помощью сеток, получение которых может быть затруднено из-за сложностей сканирования и триангуляции сложных форм, либо с помощью нейронных полей, требующих оптимизации для каждой формы. Мы предлагаем принять представление на основе метода воспроизводящих ядерных частиц (RKPM), которое позволяет построить веса скиннинга пониженного порядка путем решения обобщенной задачи на собственные значения матрицы Гессе упругой энергии. Мы демонстрируем, что эта формулировка не только обеспечивает ускорение обучения в 40 раз по сравнению с оптимизацией нейронных полей для каждой формы, но и достигает более низкой ошибки моделирования при оценке по сравнению со сходимыми результатами метода конечных элементов. Мы показываем результаты нашего моделирования для широкого спектра объектов в различных представлениях, включая сетки и гауссовы сплаты, а также применение нашего метода в последующей задаче робототехнического моделирования.
Крупномасштабный многоязычный битекст часто содержит две различные проблемы: непараллельные пары предложений и переводы низкого качества. Мы декомпозируем модельную оценку таких данных на две независимые компоненты: оценку параллельности с помощью многоязычных эмбеддингов и безэталонную оценку качества (QE). Для оценки параллельности мы тестируем четыре модели эмбеддингов на задачах ретрива FLORES-200 и BOUQuET, охватывающих 6 654 направления «исходный язык—целевой язык» в нашем перечне языковых пар. Для QE мы оцениваем девять безэталонных оценщиков на профессиональных переводах FLORES-200 по 41 412 упорядоченным направлениям «исходный язык—целевой язык». Результаты показывают, что ни одна модель не является универсально надежной для всех направлений перевода. Наивные ансамбли QE ослабляют сильные сигналы моделей, в то время как задокументированный охват целевого языка тесно связан с более высокими показателями QE. В целом эти выводы свидетельствуют о том, что оценку многоязычных параллельных данных оптимально рассматривать как задачу маршрутизации и калибровки с учетом направления, где не ожидается, что какая-либо единая универсальная метрика будет достаточной для всех языков.
Модели рассуждения оцениваются на одношаговых эталонах, но применяются в многошаговом диалоге, где пользователи оспаривают правильные ответы. При устойчивом неблагоприятном давлении мы обнаруживаем ранее не задокументированный режим отказа: цепочка мыслей остаётся фактически правильной от первого до последнего шага, в то время как выдаваемый ответ становится неверным. Мы называем это неверной капитуляцией (НК) и изолируем её с помощью двумерной (2×2) латентно-поведенческой схемы, которую упускают как метрики частоты переворотов, так и одношаговые зонды верности. На трёх наборах данных (MT-Consistency, MMLU-Pro, GSM8K) уровень латентной правильности в точке поведенческого переворота группируется около 50% в режиме размышления и падает до 11–15% в режиме без размышления — парные внутримодельные причинно-следственные свидетельства того, что рассуждение создаёт разрыв. На разных моделях эффект отслеживает канал рассуждения (высокий в Qwen3-32B и GPT-OSS-20B, низкий во встроенной CoT Gemma-4-31B-it). Независимый судья GPT-4o подтверждает 86% меток НК; токен-уровневый зонд показывает, что argmax слота ответа корректен в 84% ячеек НК; а наивная защита, привязанная к трассе, даёт обратный эффект. Мы публикуем все траектории, трассы и метки судьи.
Система генерации с дополнением извлечением (RAG), развернутая в многоавторском институциональном корпусе, может давать разные ответы на один и тот же вопрос в зависимости от того, какой источник она извлекает — это режим отказа, который доминирующая парадигма одного эталонного ответа неспособна диагностировать. Мы утверждаем, что зависимость от источника является отсутствующей осью оценки в области НЛП, и что ее аудит подразумевает смещение единицы оценки с правильности ответа на межъисточниковые отношения. Мы конкретизируем это на примере обучения пациентов с трансплантацией, где институциональные источники демонстрируют разногласия, и выпускаем три артефакта: TransplantQA — бенчмарк реальных вопросов пациентов, каждый из которых отвечается путем привязки генерации к нескольким институциональным руководствам в качестве кандидатных источников; HERO-QA — иерархическую стратегию извлечения, которая привязывает и аудирует каждый ответ; и судью со структурированным выводом, оценивающего межъисточниковые отношения по валидированной таксономии из 5 меток. В крупном масштабе улучшенное извлечение выявляет гораздо больше разногласий, чем предполагалось ранее — занижая их распространенность, а не интенсивность. Данная методология является предметно-независимой и переносится на RAG в юридической и образовательной сферах: измерение зависимости от источника — это ответственность для любой развернутой многоисточниковой системы НЛП в целом.
Рецензии, сгенерированные большими языковыми моделями (large language models, LLM), на научные статьи набирают значительную популярность и даже официально пилотируются крупными конференциями. Мы должны исходить из того, что не только рецензенты используют помощь LLM, но и авторы применяют LLM для доработки своих статей перед отправкой. В настоящей работе мы проводим эмпирические эксперименты на статьях из системы ACL Rolling Review (ARR) за 2025 год, чтобы оценить LLM-рецензии как с точки зрения автора, так и с точки зрения рецензента. Во-первых, мы выявляем ограниченное согласование LLM-рецензий с человеческими. В наилучшем случае согласование является разумным. Вместе с тем мы также обнаруживаем, что степень согласования между LLM и человеком существенно варьируется в зависимости от используемых промптов и моделей. Наконец, мы исследуем сценарий, в котором автор применяет итеративный процесс составления и редактирования (draft-revise workflow) для улучшения рукописи в соответствии с LLM-рецензией. Мы находим, что такая «игра» с LLM-рецензиями может быть эффективной в определённых сценариях, приводя к статистически значимому повышению итоговых оценок для 35% статей. Мы публикуем наш код: https://github.com/uhh-hcds/reviewarcade.
Системы ИИ подвержены ошибкам, и люди могут ошибаться, решая, стоит ли доверять ИИ больше, чем собственному суждению. Таким образом, улучшение взаимодействия человека и ИИ требует понимания того, когда, почему и как люди принимают решение полагаться на ИИ. Мы изучаем два различных типа решений о доверии: выбор делегирования — решение о том, когда позволить ИИ действовать автономно, не зная его результата, и выбор принятия — оценка предложений ИИ и решение о том, как их использовать. Оба этих разобщённых паттерна доверия формируют сотрудничество, однако в предыдущих работах они редко изучались совместно в реалистичных условиях с одними и теми же пользователями. Мы восполняем этот пробел, исследуя совместные команды человека и ИИ, соревнующиеся в игре "вопрос-ответ", где люди могут выбирать, когда и как работать с агентами ИИ для победы. В наших 24 матчах участвуют 23 эксперта-человека и 16 агентов ИИ, что позволяет зафиксировать 387 решений о делегировании и 1440 решений о принятии. Хотя совместная работа человека и ИИ показывает лучшие результаты, чем работа только человека или только ИИ, люди принимают неоптимальные решения о сотрудничестве: как недостаточно доверяя правильным подсказкам ИИ (упущено 3,9% возможностей), так и чрезмерно доверяя, когда ИИ вводит их в заблуждение (1,7%). Обе стороны вносят ошибочные ответы: сообщаемая уверенность модели близка к случайной, когда человек и ИИ расходятся во мнениях, тогда как предвзятость подтверждения приводит к более высокому уровню недостаточного доверия (64,5%), когда предложение ИИ совпадает с первоначальным неверным ответом человека. Чтобы устранить этот разрыв, мы рекомендуем калиброванную уверенность, объяснения, основанные на доказательствах, и механизмы, помогающие пользователям уточнять доверие.
В данной статье обучение нейронной сети точно отождествляется с поиском среди задач Коши для уравнения Гамильтона–Якоби: каждый шаг градиентного спуска выбирает начальные данные вязкого уравнения Гамильтона–Якоби, пропагатор Хопфа–Коула которого наилучшим образом соответствует наблюдениям; при инференсе входные данные представляют собой пространственную точку, в которой оценивается это решение, а начальное условие уже закодировано в весах. Соответствие является точным для слоев log-sum-exp и структурным для более широких архитектур: остаточные сети, трансформеры и рекуррентные архитектуры (RNN, LSTM, SSM) — каждая из них дискретизирует один и тот же класс уравнений Гамильтона–Якоби, с гамильтонианом и вязкостью, зависящими от архитектуры. Единый параметр деформации \(\varepsilon\) объединяет все четыре перспективы (сеть, тропическая алгебра, вязкое УЧП, выпуклая оптимизация) в коммутативной диаграмме, замкнутой относительно условий Липшица. Количественные следствия включают: минимаксно оптимальную скорость обобщения \(O(n^{-1/(d+2)})\) для фиксированного \(t\); состязательную устойчивость, контролируемую параметром \(\varepsilon\); обратное распространение как сопряженное уравнение гамильтоновой системы для остаточных сетей (принцип максимума Понтрягина); показатели масштабирования, согласующиеся с внутренней размерностью данных посредством квадратуры УЧП; и функцию влияния в замкнутой форме \(O(N)\) (веса атрибуции softmax \(\pi_j\)), чей ландшафт энтропии претерпевает бифуркации складки при увеличении \(\varepsilon\), причем каждая такая бифуркация сливает бассейны атрибуции.
Диахроническая эволюция от латыни к романским языкам включала перестройку системы грамматического рода от трехчастной конфигурации (мужской, женский, средний) к двухчастной (мужской, женский) в большинстве романских языков. В данной работе мы представляем интерпретируемую структуру глубокого обучения для исследования этого явления как на лексическом, так и на контекстуальном уровнях. Во-первых, мы показываем, что традиционные стратегии токенизации недостаточно надежны для этого низкоресурсного исторического контекста, и что предложенный нами токенизатор повышает производительность по сравнению с этими базовыми моделями. На лексическом уровне мы оцениваем вклад морфологических признаков в предсказание рода. На контекстуальном уровне мы количественно определяем вклад различных частеречных категорий в предсказание грамматического рода. В совокупности эти анализы характеризуют распределение информации о роде между леммой и ее контекстом в предложении. Мы делаем нашу кодовую базу, наборы данных и результаты общедоступными по адресу https://github.com/ahan-2000/Lost-in-Translation-.
Масштабирование больших языковых моделей (LLM) привело к значительному повышению производительности, но создало существенные проблемы с эффективностью инференса. Хотя архитектуры Смеси экспертов (MoE) решают эту проблему, разделяя размер модели и стоимость инференса, обучение MoE с нуля часто оказывается нестабильным и вычислительно затратным. Преобразование предварительно обученных плотных моделей в разреженные MoE стало альтернативным решением; однако существующие методы обычно полагаются на эвристическую кластеризацию нейронов или случайное разбиение для разделения сети прямого распространения (FFN) на эксперты. В данной работе мы предлагаем DOT-MoE — новую структуру, которая формулирует декомпозицию плотных слоев как задачу дифференцируемого оптимального транспорта (DOT). Вместо статических эвристик мы моделируем назначение нейронов как сбалансированную транспортную задачу, используя дифференцируемые итерации Синкхорна-Кноппа для соблюдения строгих ограничений на вместимость экспертов. Кроме того, мы используем Straight-Through Estimators (STE) для совместного обучения дискретного назначения нейронов на эксперты и политики маршрутизации токенов к экспертам в рамках сквозного подхода. Обширные эксперименты на множестве архитектур и эталонных тестов показывают, что DOT-MoE значительно превосходит базовые методы структурной обрезки, эвристической кластеризации и случайного разбиения, сохраняя 90% производительности исходной плотной модели при сокращении активных параметров на 50%.
Обучение совместному представлению между произнесенным текстом и жестами является ключевым для поиска, синтеза и понимания жестов, сопровождающих речь, но остается сложной задачей для семантически значимых жестов, коммуникативное намерение которых не передается только движением. Прямое контрастное выравнивание между транскриптами и непрерывными эмбеддингами движения часто чрезмерно акцентирует внимание на низкоуровневой кинематике и упускает символическое содержание семантических жестов. Мы предлагаем семантические якоря движения — абстракции жестового движения на естественном языке, отражающие физическую форму и коммуникативное намерение. Наш метод дискретизирует трехмерные жесты на двигательные примитивы тела и рук, вербализует их в структурированные описания и привязывает их к транскрипту для предоставления вспомогательного контрастного контроля. На наборе данных BEAT2 наш метод улучшает R@1 для поиска текста по жесту на 8,2% по сравнению с базовым подходом прямого выравнивания текста и движения и превосходит предыдущие методы поиска как в направлении «текст → жест», так и «жест → текст». Помимо агрегированных метрик поиска, контроль семантических якорей движения помогает извлекать жесты, семантически значимые для произнесенного запроса, а не возвращаться к общим паттернам движения. Последующее исследование генерации жестов с поисковым улучшением показало, что пользователи значительно предпочитают жесты, найденные нашим подходом, по сравнению с базовым методом генерации с поисковым улучшением, что демонстрирует: семантически обоснованный поиск приводит к жестам, лучше передающим коммуникативное намерение в последующей генерации.
Человеческая аннотация является эмпирической основой многих исследований в области обработки естественного языка (ОЕЯ) — от создания наборов данных до оценки моделей, — однако в статьях часто остаётся неясным, кто выполнял аннотации и как контролировался процесс аннотирования. Мы представляем первый масштабный аудит на уровне задач по документированию человеческой аннотации в ведущих конференциях по ОЕЯ, выясняя, какие детали аннотирования задокументированы, какие отсутствуют и как отчётность варьируется в зависимости от времени, темы, конференции и предполагаемого использования суждений человека. Мы вводим единую таксономию практик отчётности об аннотировании и валидируем конвейер извлечения с помощью LLM на основе Annotated-gold — согласованного экспертами золотого стандарта, включающего 41 статью и 72 задачи аннотирования, где лучшая модель достигает сравнимого с человеком согласия с урегулированными метками (альфа Криппендорфа 0,606 против 0,585 для согласия между людьми). Используя этот конвейер, мы создаём набор данных Annotated-llm, охватывающий статьи из материалов ACL за 2018–2025 годы, с 2 667 извлечёнными задачами аннотирования из 1 603 статей, и обнаруживаем, что статьи часто сообщают операционные детали, такие как стратегии набора, квалификация аннотаторов и объём аннотирования, но часто опускают детали, необходимые для оценки валидности аннотаций, включая обучение, владение языком, оплату, социально-демографические данные, урегулирование разногласий и значения согласованности, особенно в исследованиях по оценке моделей. Наши результаты показывают, что отчётность об аннотировании в ОЕЯ со временем улучшилась, но остаётся неравномерной; они также устанавливают масштабируемую основу и рекомендации по минимально необходимой отчётности для повышения надёжности, воспроизводимости и интерпретируемости человеческой аннотации.
Роботизированное манипулирование требует моделей, которые генерируют выполнимые действия, предвидя и оценивая их будущие последствия до физического выполнения. Мы представляем τ₀-World Model (τ₀-WM) — единую видео-действия модель мира, которая объединяет обучение политике, прогнозирование видео и оценку действий в единой прогностической системе. Построенная на общей основе видео-диффузии, τ₀-WM предоставляет два взаимодополняющих интерфейса. Во-первых, видео-действия модель совместно предсказывает будущие визуальные латентные переменные и непрерывные фрагменты действий на основе многовидовых наблюдений, языковых инструкций и состояния робота. Во-вторых, обусловленный действиями видео-симулятор разворачивает кандидатные фрагменты действий в многовидовые будущие кадры и предсказывает плотные оценки прогресса задачи. Модель обучается на примерно 27 300 часах реального телеуправления роботом, взаимодействия в стиле UMI, эгоцентричных человеческих видео, а также траекториях развертывания или неудач с использованием специфических для модальности масок наблюдения. Во время вывода τ₀-WM использует вычисления в тестовое время для сэмплирования кандидатов действий, их ранжирования по согласованности повторного шумоподавления и вызова симуляторной коррекции для низкокачественных кандидатов. На сложных долгосрочных и детализированных задачах роботизированного манипулирования τ₀-WM демонстрирует превосходную производительность по сравнению с другими соответствующими базовыми моделями.
Исследования в области обнаружения текстов, созданных искусственным интеллектом, представили ряд подходов для различения человеческого и машинного текста, некоторые из которых достигают высокой производительности на внутридистрибутивных данных. Однако применимость в реальных условиях застопорилась, поскольку их результаты не соответствуют потребностям пользователей, таких как преподаватели, которым предоставляется числовая оценка без каких-либо объяснений. Мы решаем эту проблему с помощью новой архитектуры TELL, которая изначально включает в себя объяснимость. Хотя наша система по-прежнему предоставляет числовую оценку, как и другие детекторы, для сопоставимости, TELL использует принципиально иной подход: мы стремимся показать пользователю «признаки», на основе которых модель считает текст написанным ИИ или человеком, чтобы дать пользователю возможность самостоятельно решить, кто написал текст, используя собственное суждение и понимание контекста написания и предполагаемого автора. Мы обучаем TELL на специальном наборе данных SFT с аннотациями авторства в определенной предметной области и дополнительно улучшаем систему с помощью GRPO с куррикулумным обучением для повышения производительности. Мы достигаем конкурентоспособной производительности по сравнению с современными детекторами (AUROC 0,927), одновременно предоставляя нативные аннотации, объясняющие основу решения детектора. Мы также оцениваем качество наших объяснений с использованием набора данных с аннотациями человека и сообщаем о высоком (в среднем 72,3%) уровне превосходства по конкретности, фальсифицируемости, связности, правдоподобию и обоснованности аннотаций, что позволяет пользователям критически мыслить и принимать собственные решения. Таким образом, наша работа переосмысливает проблему обнаружения текстов, созданных ИИ, с человекоцентрической точки зрения и открывает путь для нового семейства детекторов, ориентированных на нативную объяснимость.