Ежедневно отобранные исследовательские статьи по ИИ с переводами
Современная генерация изображений требует единой модели, объединяющей разнообразные возможности, включая текст-в-изображение (T2I), локальное и глобальное редактирование. Однако эти способности редко бывают естественно согласованы и часто конфликтуют. Например, редактирование, как правило, ухудшает производительность T2I, а глобальное и локальное редактирование мешают друг другу. В результате эффективная компоновка этих возможностей становится центральной проблемой обучения моделей генерации изображений. Для решения этой задачи мы представляем DanceOPD — фреймворк дистилляции генеративного поля по политике (on-policy) для моделей согласования потоков (flow-matching), который направляет каждый образец в одно поле возможностей, запрашивает одно состояние, индуцированное студентом с малым уровнем шума, и обучается с помощью простой целевой функции средней квадратичной ошибки скорости (velocity MSE). При определении каждого источника возможностей как поля скоростей в общем пространстве состояний потока студент обучается на полях, запрашиваемых на его собственных состояниях развертывания, чтобы компоновать экспертные возможности. Такая формулировка также поглощает операторно-определенные поля, такие как бесклассификаторное управление (CFG). Всесторонние эксперименты на T2I, редактировании, поглощении поля реалистичности и поглощении CFG показывают, что наш подход улучшает многозадачную композицию, усиливая целевые возможности при сохранении качества эталонной генерации. Мы полагаем, что эта работа устанавливает практический путь для дистилляции генеративного поля в моделях согласования потоков.
Единое представление для текста и изображений является естественной целью, поскольку оно позволяет упростить мультимодальное моделирование и повысить эффективность обучения. Однако представление изображений в виде дискретных сигналов, аналогично тексту, неизбежно приводит к существенной потере информации. Существующие работы с трудом находят баланс между низкоуровневыми деталями и высокоуровневой семантикой в дискретных представлениях: представления, ориентированные на реконструкцию, часто лишены семантической информации, тогда как семантически более сильные признаки обычно страдают от серьезной потери деталей. Мы представляем ViQ — фреймворк визуальных квантованных представлений, разработанный для балансировки семантики и деталей в дискретных представлениях при поддержке входных данных в их исходном разрешении, что позволяет ему служить единым и универсальным дискретным представлением для произвольных визуальных входных данных. Наш подход структурирует обучение квантованию в два этапа: предварительное обучение с выравниванием по тексту и дискретизация признаков. Благодаря предварительному обучению с выравниванием по тексту мы обогащаем семантический контроль визуального кодера с помощью предварительно обученной языковой модели и позволяем ему обрабатывать визуальные входные данные в исходном разрешении. В процессе дискретизации мы предлагаем стратегию обучения проксимальных представлений для постепенного сжатия пространства признаков, а также позиционно-зависимый механизм поканального квантования, который обеспечивает гибкую обработку произвольных разрешений. Обширные эксперименты на мультимодальных задачах показывают, что ViQ достигает конкурентоспособной производительности по сравнению с современными мультимодальными визуальными кодировщиками, использующими непрерывные и высокоразмерные визуальные признаки, при сохранении высокой точности в низкоуровневой реконструкции. Мы также показываем, что мультимодальное обучение с визуальными квантованными представлениями значительно повышает эффективность, обеспечивая ускорение до 20%–70% для различных базовых LLM и схем обучения.
Обучение с подкреплением на основе результатов обеспечивает стабильную основу для оптимизации языковых агентов, однако его разреженные награды на уровне траекторий дают мало указаний на то, какие промежуточные решения следует усиливать или подавлять. Самодистилляция на политике предоставляет плотный контроль на уровне токенов, но существующие варианты, обусловленные навыками, часто полагаются на внешние хранилища навыков или извлечённый привилегированный контекст, которые дороги в поддержке и могут не соответствовать распределению состояний, порождаемому текущей политикой в многошаговом взаимодействии. Мы предлагаем OPID (On-Policy Skill Distillation — дистилляция навыков на политике) — подход, извлекающий контроль навыков непосредственно из завершённых траекторий, полученных на текущей политике. OPID представляет ретроспективу траектории в виде иерархических навыков: навыки уровня эпизода отражают глобальные рабочие процессы или правила предотвращения ошибок, а навыки уровня шага фиксируют локальные знания о решениях на критических временных шагах. Механизм маршрутизации с приоритетом критических шагов использует навыки уровня шага, когда выявлены критические решения, и в противном случае возвращается к навыкам уровня эпизода в качестве стандартного руководства. Выбранный навык внедряется в историю взаимодействия, что позволяет старой политике заново оценить тот же сэмплированный ответ как в исходном, так и в дополненном навыками контексте. Полученный сдвиг логарифмических вероятностей порождает преимущество самодистилляции на уровне токенов, которое комбинируется с преимуществом по результату для оптимизации политики. Таким образом, OPID сохраняет обучение с подкреплением в качестве основной цели обучения, одновременно вводя плотную, согласованную с распределением ретроспективную супервизию. Эксперименты на ALFWorld, WebShop и поисковом QA показывают, что OPID в целом улучшает производительность агента, эффективность использования выборки и устойчивость по сравнению с обучением с подкреплением, основанным только на результатах, и существующими базовыми методами дистилляции навыков. Наш код доступен по адресу https://github.com/jinyangwu/OPID/tree/main.
Хотя модели текст-в-изображение (T2I) достигли значительных успехов, они сталкиваются с трудностями при обработке запросов из реального мира, которые часто являются недоопределёнными, неявными или зависят от актуальных знаний. Мы определяем эту проблему как Контекстный Разрыв: несоответствие между пользовательским контекстом и достаточным контекстом генерации для T2I-моделей. Для преодоления этого разрыва мы предлагаем Qwen-Image-Agent — единую агентную структуру, которая интегрирует планирование, рассуждение, поиск, память и обратную связь контекстно-ориентированным образом. Qwen-Image-Agent рассматривает пользовательский ввод как частичный контекст и последовательно строит контекст генерации посредством Контекстно-Осознанного Планирования и Контекстного Обоснования. В частности, Контекстно-Осознанное Планирование выявляет отсутствующий контекст и планирует, как его следует получить и использовать, в то время как Контекстное Обоснование собирает этот контекст из рассуждений, поиска, памяти и обратной связи. Для оценки агентной генерации изображений мы дополнительно представляем Image Agent Bench (IA-Bench) — эталон, охватывающий четыре ключевые способности агента изображений: Планирование, Рассуждение, Поиск и Память. Эксперименты на IA-Bench, Mindbench и WISE-Verified показывают, что Qwen-Image-Agent превосходит сильные базовые модели и достигает современного уровня производительности.
Классическая интуиция подсказывает, что проверить решение легче, чем его создать. Для современных кодирующих агентов эта интуиция переворачивается: по мере того как базовые модели развивают более сильные способности к рассуждению, а инженерные средства становятся всё более совершенными, создание сложных кандидатных решений перестаёт быть трудным — надёжная их верификация становится более сложной задачей. Любой верификатор, который мы можем построить, является лишь прокси человеческого намерения, а не самим намерением. Это делает верификацию подверженной двойной трудности: во-первых, намерение по своей природе недоопределено, что делает принципиально сложным точную проверку того, было ли оно выполнено; во-вторых, в ходе обучения модели оптимизация увеличивает разрыв между прокси и намерением — что проявляется как ревард-хакинг или насыщение сигнала. Чтобы решить эту проблему, мы характеризуем качество сигналов верификации по трём измерениям — масштабируемости, точности и робастности — и утверждаем, что достижение всех трёх одновременно является центральной задачей. Мы также изучаем четыре конструкции вознаграждения: верификатор на основе тестов для общих задач кодирования, верификатор на основе рубрики для задач фронтенда, пользователя как верификатора для реальных агентских задач и автоматизированного агента-верификатора для долгосрочных задач. На разных типах задач и уровнях возможностей политик мы проводим углублённый анализ и эксперименты по основным проблемам проектирования вознаграждения и тому, как более эффективно использовать сигналы вознаграждения. Эксперименты показывают, что целенаправленное проектирование верификации может эффективно подавлять ревард-хакинг, повышать качество выполнения задач и достигать значительных улучшений на нескольких внутренних и публичных бенчмарках. Совокупность этих наблюдений указывает на ключевой вывод: ни одна фиксированная функция вознаграждения не может оставаться эффективной по мере роста возможностей политики; верификация должна совместно эволюционировать с генератором.
Спекулятивное декодирование (SD) ускоряет авторегрессионные большие языковые модели (LLM) за счет формирования нескольких токенов-кандидатов (черновиков) и их параллельной верификации, однако оно сталкивается с ограничением масштабируемости: увеличение бюджета черновика повышает скорость только при сохранении высокой вероятности принятия и низких накладных расходах на формирование черновика. Этот потолок было трудно преодолеть, поскольку предыдущие методы SD на основе головы сталкиваются с дилеммой причинности и эффективности. Авторегрессионные черновики порождают обусловленные путями кандидаты, эффективные для деревьев спекулятивного декодирования с большей длиной принятия, но стоимость их формирования растет с глубиной дерева. Двунаправленные блок-диффузионные черновики генерируют все позиции за один проход, однако их независимые от ветвей маргинальные вероятности могут образовывать по отдельности правдоподобные, но взаимно несовместимые деревья, что приводит к потере бюджета и снижению вероятности принятия. Мы предлагаем JetSpec — фреймворк SD на основе головы, который сочетает эффективность формирования черновика за один прямой проход с причинным обусловливанием по ветвям. JetSpec обучает причинную параллельную голову черновика на объединенных скрытых состояниях от замороженной целевой модели, порождая деревья-кандидаты, оценки которых согласуются с авторегрессионной факторизацией целевой модели. Это позволяет JetSpec преобразовывать более крупный бюджет черновика в более длинные принятые префиксы и более высокое сквозное ускорение. На тестах по математике, программированию и диалогам на плотных и MoE моделях Qwen3 JetSpec последовательно превосходит базовые методы SD с двунаправленной головой и деревом. На графических процессорах H100 JetSpec достигает ускорения до 9.64× на MATH-500 и 4.58× на задачах с открытыми диалогами, а дополнительное снижение задержек продемонстрировано при интеграции с vLLM в условиях реальных серверных нагрузок. Наш код и модели доступны по адресу https://github.com/hao-ai-lab/JetSpec.
Агенты, управляющие компьютером, могут выполнять программные задачи как через графические интерфейсы, так и через программные командные интерфейсы, однако существующие оценки смешивают модальность взаимодействия с различиями в задачах, начальных состояниях, верификаторах и разрешенных действиях. Мы представляем согласованный бенчмарк уровня исполнения, включающий 440 настольных задач в 18 приложениях и 12 категориях рабочих процессов, где агенты с экранным графическим интерфейсом (GUI) и агенты с интерфейсом командной строки (CLI), основанным на навыках, получают идентичные цели, состояния и финальные верификаторы, будучи ограниченными действиями, свойственными их модальности. В этих контролируемых условиях сильнейший GUI-агент достигает 59,1% полного прохождения, превосходя сильнейшего исходного CLI-агента с показателем 48,2%; однако дополнение навыков с помощью верификаторов повышает успешность CLI до 69,3%, что показывает, что большая часть отставания CLI обусловлена неполным покрытием навыков, а не только возможностями модели. Эти результаты свидетельствуют о том, что GUI и CLI выявляют различные узкие места исполнения: GUI-агенты ограничены надежным обоснованным взаимодействием в рабочих процессах с длинным горизонтом, тогда как CLI-агенты ограничены покрытием и масштабируемостью их интерфейсов навыков.
Совместно-встраивающие предсказательные архитектуры (Joint-Embedding Predictive Architectures, JEPAs), включая недавнюю LeWorldModel (LeWM), стали перспективной основой для визуальных моделей мира без реконструкции. Однако для визуального планирования LeWM оценивает последовательности кандидатных действий путем многократного применения локальной одношаговой модели латентных переходов. Такое авторегрессионное развертывание делает планирование вычислительно затратным и подвергает предсказанную траекторию накоплению латентных ошибок по мере роста горизонта. Мы предлагаем Fast LeWorldModel (Fast-LeWM), быструю латентную модель мира, которая заменяет повторное локальное развертывание предсказанием по префиксу действий. Исходя из текущего латентного представления и последовательности кандидатных действий, Fast-LeWM кодирует их префиксы и параллельно предсказывает будущие латентные состояния, достигаемые после выполнения этих префиксов. Делая префиксы действий базовой единицей предсказания, Fast-LeWM напрямую моделирует эффекты действий, накопленные в разной степени на нескольких горизонтах. Такая супервизия на уровне префиксов заставляет модель изучать, как состояния непрерывно эволюционируют при различных префиксах действий, а не только подгонять одношаговые переходы состояний. Во время планирования предсказатель может использовать последний токен префикса из закодированной последовательности действий для оценки соответствующего будущего латентного состояния, не проходя явно через каждое промежуточное воображаемое состояние. В ряде задач Fast-LeWM повышает среднюю успешность по сравнению с LeWM при существенном сокращении времени планирования, достигая меньших латентных потерь в разомкнутом контуре, рост которых значительно замедляется с увеличением горизонта развертывания.
Использование инструментов позволяет большим языковым моделям (LLM) выполнять сложные задачи, а современные методы агентного обучения с подкреплением (RL) демонстрируют потенциал для улучшения возможностей моделей. Однако одно лишь RL часто приводит к нестабильности или ограниченным улучшениям в задачах, связанных с использованием инструментов. В наших экспериментах некоторые модели демонстрируют катастрофический коллапс, при котором производительность резко падает, а структуры вызова инструментов перестают работать. Анализ показывает, что эти сбои вызваны неожиданными скачками вероятности в определённых управляющих токенах, что нарушает структурированное выполнение, однако базовая способность использовать инструменты остаётся нетронутой, лишь скрытой из-за специфических форматов. Для решения этой проблемы мы систематически исследуем разнообразный набор сигналов контроля, включая обучение вне политики (off-policy), направляющие подсказки, обучение на ошибочных примерах и другие, применяемые как в синхронном, так и в перемежающемся режимах обучения. Мы обнаружили, что перемежающееся обучение с учителем (SFT) и RL значительно улучшает стабильность, но демонстрирует сниженную производительность при оценке на данных, выходящих за пределы распределения (OOD) по формату и содержанию. Мы также анализируем влияние скорости обучения и обобщение на различные конфигурации. Эти результаты подчёркивают важность понимания сбоев в RL и демонстрируют, как разнообразные сигналы контроля могут направлять исследовательское обучение, обеспечивая устойчивую тренировку LLM для сложных многошаговых задач с использованием инструментов. Наш код доступен по адресу https://github.com/hypasd-art/Tool-RL-Box.
По мере того как агентные системы продолжают развиваться и широко внедряться в реальные сценарии, возникает растущая потребность в достоверной оценке их возможностей. Однако современные бенчмарки, как правило, строятся на популярных приложениях с относительно простыми задачами и фокусируются на узком наборе способностей, упуская из виду более широкие аспекты, что приводит к насыщению производительности на современных агентах и не позволяет выявить их ограничения. Для решения этой проблемы мы представляем GauntletBench — веб-ориентированный бенчмарк для оценки обобщающей способности агентов в сложных сценариях, сфокусированный на трех малоизученных способностях (временное восприятие, понимание графики и 3D-рассуждение) в пяти менее освещенных профессиональных приложениях (видеоредактор, конструктор рабочих процессов, 3D-моделлер, анализатор полетов и проектировщик схем), каждое из которых содержит 20 задач с интенсивным использованием зрения (всего 100 задач). Наш бенчмарк предоставляет модульный конвейер, включающий среду, совместимую как с открытыми, так и с закрытыми фреймворками агентов, контролируемое веб-приложение, хорошо структурированный набор задач и автоматический движок оценки с разнообразными метриками. Вопреки широко распространенным ожиданиям, наши эмпирические результаты показывают, что передовые агентные системы все еще далеки от достижения производительности на уровне человека. Даже самый современный агент достигает лишь 19,1% успеха на нашем GauntletBench, что подчеркивает ограничения в этих упущенных из виду способностях и обобщении. Для сравнения, аннотаторы-неспециалисты демонстрируют более 80% успеха на наших сложных, но выполнимых задачах, выявляя значительный разрыв между текущими возможностями агентов и теми, которые требуются для сложных реальных сценариев.
Распространенная двухветвевая парадигма, заключающаяся в обучении вспомогательной сети для кодирования визуальных условий и слиянии ее промежуточных признаков с замороженной предобученной основной сетью, показала замечательные успехи в управляемой генерации с визуальными условиями. Несмотря на широкое применение, роль вспомогательной ветви и эффективность ее обучения остаются недостаточно изученными. В данной работе мы впервые пересматриваем эту основную парадигму через призму генеративного моделирования на основе скоринговых функций: 1) Основная сеть сохраняет визуальное перцептивное качество, предоставляя априорную безусловную скоринговую функцию. 2) Вспомогательная сеть направляет условное управление, неявно внося вклад в скоринговую функцию правдоподобия. Руководствуясь этой точкой зрения, мы предлагаем LISA (выравнивание по скоринговой функции правдоподобия) — эффективный метод регуляризации, который явно выравнивает промежуточные признаки вспомогательной сети с аппроксимированной скоринговой функцией правдоподобия. В частности, мы сначала перехватываем признаки из заданного слоя вспомогательной сети и проецируем их в латентное пространство скоринговых функций с помощью легковесного декодера. Затем мы строим аппроксимированный целевой показатель скоринговой функции правдоподобия и вычисляем расстояние между выходом декодера и этой целью как дополнительную потерю регуляризации. Наконец, мы совместно оптимизируем вспомогательную сеть и декодер, используя как стандартную диффузионную потерю, так и нашу потерю регуляризации. Эксперименты на различных задачах с изображениями/видео, архитектурах и моделях диффузии/потоков показали, что LISA не только последовательно ускоряет сходимость обучения и улучшает конечные синтезированные результаты, но и способствует более разнесенному представлению признаков вспомогательной сети для условного моделирования с незначительными дополнительными затратами на обучение и нулевыми дополнительными затратами на вывод.
Модели видеорассуждения неявно предполагают, что каждый входной кадр одинаково надежен. Это приводит к тому, что мы называем проблемой слепого доверия: при реалистичных искажениях, таких как размытие движения, блики или окклюзия, передовые модели видеорассуждения могут терять 15–30 процентных пунктов точности на реальных встраиваемых эталонных тестах, оставаясь при этом неосведомленными о том, что их визуальные данные были ухудшены. Для решения этой задачи мы предлагаем Robust-TO — агентную структуру понимания видео, которая явно интегрирует доверие к каждому кадру на каждом этапе рассуждения. Robust-TO организует разнородные инструменты визуального восприятия под единым интерфейсом свидетельств. Каждый инструмент получает подзапрос, полученный из исходного вопроса, и набор надежных кадров, отобранных по оценке надежности-релевантности. Он возвращает свидетельства в общем формате: конкретное предсказание (например, ограничивающая рамка, траектория движения, распознанный текст или метка действия), временная привязка и калиброванная оценка надежности. В процессе рассуждения эти калиброванные оценки направляют взвешивание свидетельств в трехуровневом процессе синтеза (высокий/средний/низкий) и определяют вознаграждение GRPO на основе уверенности и затрат, которое совместно оптимизирует корректность, надежность свидетельств и эффективность. На двух эталонных тестах видеорассуждения, охватывающих восемь задач, Robust-TO достигает средней точности 56,4% на чистых входных данных, превосходя самую сильную открытую базовую линию на 10,6 процентных пункта и опережая Gemini-2.5-Pro (46,2%). При пяти реалистичных типах искажений Robust-TO сохраняет среднюю точность 54,3%, что на 5,8 процентных пункта выше самой сильной открытой базовой линии, при этом демонстрируя наименьшее падение точности от чистых к искаженным данным среди всех сравниваемых методов.
Современные модели типа Видение-Язык-Действие (VLA) часто не способны обобщаться на новые конфигурации, такие как изменённые точки обзора камеры или морфология робота, поскольку они обычно обусловлены только текущими наблюдениями и языковыми инструкциями. Игнорируя базовую конфигурацию системы как переменную, эти модели неявно предполагают фиксированный контекст выполнения, встречающийся во время обучения, что требует ресурсоёмкой тонкой настройки для каждой новой среды. В данной работе мы представляем Контекстное Моделирование Мира (ICWM) — подход, который рассматривает идентификацию системы как задачу контекстной адаптации. ICWM позволяет политикам робота автономно выводить существенные переменные системы из короткой истории самостоятельных, не зависящих от задачи взаимодействий. В отличие от традиционного контекстного обучения, использующего демонстрации для указания, какую задачу выполнять, ICWM использует окно контекста для понимания того, как работает система. Обрабатывая эти взаимодействия до выполнения задачи, модель неявно улавливает динамику текущей системы, что позволяет адаптироваться к новым конфигурациям без обновления параметров. Обширные эксперименты в симуляции и на реальных роботизированных платформах демонстрируют, что ICWM значительно превосходит стандартные базовые модели VLA при работе с новыми точками обзора камеры.
По мере того как агенты на основе LLM становятся способными решать всё более долгосрочные задачи, оценка их производительности в экономических системах приобретает всё большую важность. В отличие от существующих бенчмарков, которые в основном оценивают одного агента, взаимодействующего с пассивной средой, экономические системы по своей сути являются мультиагентными: они требуют, чтобы автономные агенты общались, вели переговоры и совершали сделки, преследуя собственные цели в течение длительных периодов времени. Мы представляем CoffeeBench — бенчмарк для оценки агентов на основе LLM в долгосрочной мультиагентной экономике, состоящей из гетерогенных фирм. В CoffeeBench два фермера, два обжарщика и два розничных продавца автономно управляют своим бизнесом в ходе 90-дневной симуляции, каждый из них стремится максимизировать совокупный чистый доход посредством общения и транзакций, управляя при этом денежными средствами, запасами и ценообразованием. Оцениваемая модель управляет одним обжарщиком кофе, в то время как остальные фирмы управляются фиксированными эталонными агентами. Среди нескольких недавних LLM с открытым весом и проприетарных LLM все модели превзошли пассивный базовый уровень, который не предпринимает никаких действий, при этом большинство из них получили положительный чистый доход. Анализ поведения агентов выявил существенные различия в долгосрочном экономическом взаимодействии: более производительные модели активнее общаются с другими фирмами, тогда как Claude Haiku 4.5 демонстрирует режим отказа «праздный дрейф», многократно выбирая бездействие, несмотря на формулирование связных оценок и планов. Мы публикуем наш код и траектории агентов для поддержки будущих исследований.
Современные генеративные мировые модели создают всё более реалистичные управляемые действиями будущие сценарии, однако они часто галлюцинируют: развертывания остаются визуально плавными, но отклоняются от истинной динамики. Мы предполагаем, что галлюцинации концентрируются в областях пространства состояний-действий с низким покрытием, где легковесные сигналы, ориентированные на данные, могут как обнаруживать их, так и направлять смягчение. Для проверки этой гипотезы мы представляем MMBench2 — набор данных объёмом 427 часов и 210 задач для визуального моделирования мира с истинными действиями, наградами и живыми симуляторами, и обучаем на нём мировую модель с 350 миллионами параметров. Мы выявляем три различных режима галлюцинаций: перцептивный, маргинализированный по действию и расходящийся по сцене — каждый из которых привязан к разному этапу конвейера, и разрабатываем три сигнала, которые точно предсказывают, где модель потерпит неудачу. Для устранения пробелов в покрытии на этапе обучения мы разрабатываем технику выборки с учётом покрытия; для их устранения в реальном времени наши предикторы галлюцинаций служат наградами за любопытство для целенаправленного сбора данных, что даёт метод тонкой настройки с эффективным использованием данных, адаптирующий предобученную мировую модель к совершенно невиданным средам всего за 50 траекторий реальной среды. В целом, наши результаты показывают, что галлюцинации в мировых моделях по своей сути являются проблемой покрытия данных, и что те же сигналы, используемые для их обнаружения, могут также применяться для их смягчения. Интерактивная веб-версия нашей статьи доступна по адресу https://www.nicklashansen.com/mmbench2
Мы представляем PhysiFormer — диффузионный трансформер для физически правдоподобного движения 3D-объектов. В отличие от видеомировых моделей, работающих в зависящем от ракурса пиксельном пространстве, PhysiFormer представляет объекты в виде 3D-сеток, выраженных в мировых координатах. Получая на вход начальные положения и скорости вершин, а также тип материала объекта (жёсткий или упругий), модель генерирует будущие траектории вершин. В то время как смежные нейросетевые физические подходы опираются на ad-hoc латентные пространства или явно учитывают жёсткость и причинность, PhysiFormer демонстрирует, что отличные результаты можно получить без подобных индуктивных смещений, представив предсказание траекторий вершин как единый процесс диффузии с удалением шума непосредственно в мировых координатах. Вероятностная формулировка учитывает неопределённость в изучаемой динамике, позволяя получать различные правдоподобные варианты будущего на основе начальных условий, что делает данную архитектуру потенциально полезной для приложений с ненаблюдаемой неопределённостью. Модель использует внимание, факторизованное по времени, пространству и объектам для эффективности, что обеспечивает перестановочно-инвариантное многобъектное рассуждение без необходимости явного кодирования объектов. Обученный на более чем 100 000 симулированных траекториях, PhysiFormer генерирует динамику жёстких и упругих тел и обобщается на смешанные материалы, невиданные ранее геометрии реального мира и большее количество объектов. Он значительно превосходит авторегрессионные базовые модели по точности траекторий, сохранению жёсткости и сохранению импульса на основе физической согласованности. Наши результаты позиционируют диффузию в координатном пространстве как многообещающий шаг к инвариантному к ракурсу моделированию мира с учётом геометрии для робототехники, графики и физического дизайна. Визуализации, код и модели доступны по адресу https://yimingc9.github.io/physiformer.
Несмотря на их широкое использование, роль моделей вознаграждения в формировании обучения с подкреплением остается плохо изученной. Модели вознаграждения предлагают заманчивое обещание: они автоматически оценивают качество ответов при отсутствии верификаторов или экспертов-людей. В отличие от «проверяемых вознаграждений», которые обычно дают бинарные оценки, модели вознаграждения обычно генерируют непрерывные оценки, что позволяет им быть чувствительными к мелким различиям в ответах. Однако мы показываем, что это кажущееся преимущество является серьезным недостатком: многие популярные модели вознаграждения обладают избыточной чувствительностью, присваивая разные оценки одинаково хорошим ответам. Теоретически мы демонстрируем, что, казалось бы, совершенные модели вознаграждения могут быть крайне избыточно чувствительными; эмпирически эта избыточная чувствительность может приводить к плохим политикам. Вместо существующих понятий «точности модели вознаграждения» мы предлагаем оценивать модели вознаграждения с помощью отдельных показателей: «дискриминационной способности» и «специфичности» (дополнение к избыточной чувствительности). В качестве решения мы описываем алгоритм без обучения, который использует Монте-Карло дропаут на любой нейросетевой модели вознаграждения для получения дискретных кластеров вознаграждения. Теоретически мы доказываем, что существуют дискретизации, которые уменьшают избыточную чувствительность с минимальной потерей дискриминационной способности; эмпирически мы показываем как в контролируемых, так и в естественных условиях обучения с подкреплением, что дискретизация вознаграждений приводит к меньшему взлому вознаграждения и лучшим политикам по сравнению с обучением на исходных вознаграждениях.
Способность к рассуждению быстро прогрессировала в больших языковых моделях (БЯМ), что привело к увеличению размера кэша ключ-значение (KV) как на этапе предзаполнения, так и на этапе декодирования. Существующие методы сжатия KV-кэша в основном полагаются на веса внимания для оценки важности токенов. Хотя внимание эффективно отражает контекстуальную релевантность, оно упускает из виду дополнительные информационно-теоретические сигналы, связанные с прогностической неопределенностью и информативностью токенов. В данной статье мы пересматриваем важность токенов с опережающей перспективы и вводим метрику «прямое влияние» (Forward Influence), которая измеряет, как сжатые токены влияют на будущие контексты. Наш анализ показывает, что токены, отобранные по оценкам внимания, в основном влияют на близлежащие контексты, тогда как токены, связанные с высокой прогностической неопределенностью, оказывают значительно более сильное влияние на удаленные будущие контексты. Основываясь на данном наблюдении, мы предлагаем InfoKV — основанную на энтропии структуру сжатия KV-кэша, которая включает информационно-теоретические сигналы. Она объединяет прогностическую неопределенность на уровне токенов с послойной эволюцией представлений и интегрирует полученные энтропийные оценки с оценками внимания в процессе рассуждения. Эксперименты на эталонных тестах для рассуждений в длинном контексте с моделями Llama-3.1, Llama-3.2 и DeepSeek-R1 показывают, что InfoKV стабильно превосходит существующие методы сжатия KV-кэша на основе внимания как в сценариях длительного предзаполнения, так и декодирования.
Модели вознаграждения за процесс позволяют проводить детальную оценку LLM на уровне отдельных шагов, однако их создание для агентных сред остаётся крайне сложной задачей: длительные горизонты взаимодействия, необратимые действия и стохастическая обратная связь от окружения делают как человеческую разметку, так и оценку методом Монте-Карло непрактичными в масштабе. В данной работе мы показываем, что пост-тренировка с подкреплением (RL) уже предоставляет необходимые компоненты для эффективной оценки на уровне шагов, устраняя потребность в отдельном обучении модели вознаграждения. Конкретно, мы выводим неявное преимущество в рамках общего стохастического марковского процесса принятия решений, которое называем *прогресс-преимуществом*: логарифмическое отношение вероятностей между политикой, обученной с помощью RL, и её референтной политикой в точности восстанавливает оптимальную функцию преимущества. Такая формулировка делает результирующий сигнал свободным от аннотаций, независимым от предметной области и доступным как побочный продукт стандартного конвейера пост-тренировки RL. Мы подтверждаем эффективность прогресс-преимущества в трёх различных приложениях: масштабировании на этапе тестирования, квантификации неопределённости и атрибуции ошибок на пяти бенчмарках и четырёх семействах моделей. Во всех сценариях оно стабильно превосходит базовые методы, основанные на уверенности, и, несмотря на отсутствие специализированного обучения на задачу, опережает специализированные обученные модели вознаграждения. Мы дополняем эти результаты более глубоким анализом характеристик прогресс-преимущества, предлагая практические рекомендации для его внедрения в реальные агентные системы.
Хотя генеративный ИИ добился впечатляющих успехов в решении задач с верифицируемыми решениями, создание физического искусства, удовлетворяющего как строгим геометрическим ограничениям, так и субъективным визуальным эстетическим требованиям, остается сложной задачей. В данной статье представлен подход к преодолению этих трудностей в области вычислительного оригами — математически строгой среды, которая обосновывает художественное проектирование в рамках уравнений плоской складываемости. Мы представляем COrigami — сквозной конвейер на основе ИИ, который помогает процессу проектирования, генерируя схемы сгибов по текстовому описанию на естественном языке. Наш конвейер включает генерацию семантической схематической фигуры, вычисление базовой упаковки, нахождение плоскоскладываемой схемы сгибов, придание формы плоскосложенной схеме и уточнение сгенерированной модели с помощью обучения с подкреплением, управляемого автономным циклом эстетической оценки. Наша система выступает в качестве высокоэффективного ассистента в совместной работе, создавая структурные отправные точки, которые художники-люди могут в дальнейшем развивать и изменять. Интегрируя алгоритмическую оптимизацию с автономной эстетической критикой, данная работа демонстрирует, как системы ИИ могут удовлетворять многокритериальным физическим ограничениям для обеспечения надежного, математически обоснованного совместного творчества.
Мультимодельные LLM-системы, такие как маршрутизация, голосование, каскады, слияние и смешение агентов, используются для превосходства над точностью одной модели. Мы показываем, что их выигрыш ограничен величиной, которую в данной области редко указывают. Для любой стратегии, выходом которой является ответ одной из моделей, точность не может превышать единицу минус бета, где бета — это доля запросов, на которых каждая модель ошибается. В отличие от этого, обычный диагностический показатель — средняя попарная корреляция ошибок ро — не позволяет определить бету: законы ошибок с одинаковыми маргинальными распределениями и попарными корреляциями могут иметь различные доли всеобщих ошибок. Оценка беты по методу Клоппера–Пирсона даёт конечную сертификацию максимального выигрыша, который может обеспечить любой маршрутизатор, голосование или каскад до обучения маршрутизатора. На выборке из 67 моделей от 21 поставщика однофакторная тетрахорически калиброванная модель по-прежнему занижает хвост всеобщих ошибок: на задачах по математике с открытым ответом наблюдаемая бета составляет 0,052 против 0,023 при полной гауссовой копуле из 67 моделей — занижение примерно в 2,5 раза, с 90%-ным доверительным интервалом от 1,7 до 3,4 и k = 17. Этот эффект повторяется для кода, оцениваемого по выполнению, где бета равна 0,079. Повторное задание тех же вопросов GPQA-Diamond в форме свободного ответа, а не множественного выбора, открывает хвост заново: бета составляет 0,127, а коллегия из пяти экспертов с каппа от 0,73 до 0,92 локализует совместную ошибку в формате ответа, а не в предмете. При равном качестве гетерогенные ансамбли с низким ро превосходят Self-MoA с высоким ро, однако на проверяемых задачах из нашего пула объединение моделей редко превосходит одну лучшую модель без сильного сигнала маршрутизации на уровне запросов. Выигрыш достигается за счёт того, что модели ошибаются на разных вопросах, а не за счёт добавления большего числа моделей.
Работающая ссылка выглядит как доказательство — но тот факт, что ссылка разрешается (более 99% разрешаются), не означает, что цитируемая статья подтверждает утверждение. Я обнаружил, что современные агентные модели редко фабрикуют цитаты, однако примерно 15,9% ссылок ведут на неверную статью. Существующие бенчмарки упускают этот вид сбоя: когда у вопроса есть фиксированный ключ ответов, модель может воспроизвести ожидаемый источник из этого ключа, а не самостоятельно проверить, что источник подтверждает утверждение. Я представляю \openbiorq{} — основанный на поиске агентный бенчмарк из 12 553 нерешенных вопросов биомедицинских исследований по 12 областям, который рассматривает открытые вопросы как проверку на верность и воздержание. Насколько мне известно, это первый биомедицинский бенчмарк, объединяющий агентный сценарий — где модель должна выполнять несколько вызовов инструментов — с нерешенными вопросами, не имеющими ключа ответов. Открытость проверяется на основе реальных последующих доказательств, а не параметрических знаний модели. Сложность эмпирична: я привязываю её к вопросам, на которые не могут ответить три эталонные модели с открытым весом, а не к субъективным меткам сложности. На этом самом сложном подмножестве отложенные модели того же происхождения, что и якоря сложности, решают лишь ~17%, в то время как три независимых передовых агента (Gemini-3-Pro, Opus-4.7, GPT-5.5) охватывают широкий диапазон от 29% до 60%. Таким образом, бенчмарк является сложным, ненасыщаемым (лучший агент всё ещё оставляет ~33–40% нерешёнными) и различающим по уровням возможностей. Помимо сложности, я наблюдаю агентный коллапс на самых сложных вопросах, когда агенты перестают использовать свои инструменты. Для модели, наиболее склонной к коллапсу, полное блокирование доступа к инструментам почти не меняет её результат — таким образом, инструменты перестают окупаться именно там, где они нужны больше всего. Замороженный контрольный список для каждого вопроса повышает согласованность между оценщиками со Спирмена 0,35 до 0,82.
Прогнозирование на основе данных дистанционного зондирования Земли (ДЗЗ) направлено на предсказание будущей динамики земной поверхности по спутниковым наблюдениям в условиях изменяющихся метеорологических параметров. В данной статье мы рассматриваем эту задачу как частично наблюдаемую проблему моделирования мира, управляемого погодой, где погода выступает в качестве обусловливающего сигнала, а прогнозирование остается неопределенным из-за разреженных наблюдений и ненаблюдаемых состояний земной поверхности. Однако существующие методы не полностью учитывают эту постановку: детерминистические модели сводят неопределенность к единственному будущему прогнозу, в то время как диффузионные методы обычно рассматривают погодные переменные как недифференцированные обусловливающие сигналы, а существующие эталоны сосредоточены в основном на точности реконструкции, а не на том, правильно ли прогнозы реагируют на измененные погодные воздействия. Мы представляем EO-WM, видеодиффузионный трансформер для мультиспектрального прогнозирования ДЗЗ. EO-WM включает физически обоснованную структуру обусловливания, которая представляет метеорологическое воздействие через климатологический базис, погодные аномалии и кумулятивные сигналы физического стресса. В частности, он разделяет базис и аномалию с помощью отдельных путей обусловливания и накапливает аномальное воздействие во времени для учета продолжительного теплового и засушливого стресса. Для оценки поведения реакции на погоду за пределами стандартных метрик мы вводим два диагностических эталона: эталон экстремального лета для прогнозирования деградации растительности с учетом степени тяжести в экстремальных погодных условиях и эталон сезонных парных выборок для проверки точности реакции при измененных погодных воздействиях. Эксперименты показывают, что EO-WM снижает ошибку в прогнозируемой амплитуде снижения нормализованного разностного вегетационного индекса (NDVI) на относительные 5,63% и улучшает направленную частоту попаданий на относительные 7,80%, оставаясь конкурентоспособным по стандартным попиксельным метрикам. Эталоны и модель будут опубликованы в открытом доступе по адресу https://github.com/Luo-Z13/EO-WM.
Модели научного обоснования для биологии объединяют языковые модели с фундаментальными моделями, обученными на мультимодальных биологических данных, включая ДНК, РНК и белки. Эти модели строятся с помощью пост-обучения, однако то, как каждый этап формирует способность к рассуждению и обобщению, остается плохо изученным. Мы исследуем, когда пост-обучение улучшает производительность, а когда приводит к чрезмерной специализации. На данных геномики, транскриптомики и белков мы обучаем и оцениваем более 100 моделей биологического обоснования при контролируемом варьировании базовой архитектуры, продолженного предварительного обучения (CPT), тонкой настройки с учителем (SFT) и обучения с подкреплением (RL), измеряя как внутридоменную (ID), так и внедоменную (OOD) производительность. Мы обнаружили, что каждый этап пост-обучения изменяет обобщение уникальным образом, а не обеспечивает равномерные улучшения. CPT улучшает итоговую производительность за счет согласования моделей с биологическим языком. SFT последовательно повышает ID-производительность, но приводит к тому, что OOD-производительность достигает пика на ранних этапах и затем снижается по мере подстройки модели под обучающее распределение. RL, применяемый к сильным SFT-контрольным точкам с согласованными вознаграждениями, улучшает OOD-производительность и частично восстанавливает обобщение. Эти результаты показывают, что способность к биологическому обоснованию не улучшается монотонно с увеличением объема обучения с учителем или вычислительных ресурсов. Вместо этого производительность зависит от того, как скомпонованы этапы обучения. При фиксированных бюджетах пост-обучения наилучший компромисс между ID и OOD достигается за счет кратковременного SFT, больших вложений в RL и асимметричной способности к адаптации на разных этапах.