Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние достижения в моделях рассуждений существенно продвинули долгосрочное решение математических и научных задач, причем несколько систем теперь достигают показателей золотой медали на задачах Международной математической олимпиады (IMO) и Международной физической олимпиады (IPhO). В этой статье мы представляем простой и унифицированный рецепт преобразования предварительно обученной магистральной модели рассуждений в строгий решатель олимпиадного уровня. Рецепт сначала использует обратный перплексический план обучения для контролируемой тонкой настройки (SFT) с целью привить строгий поиск доказательств и поведение самопроверки, затем масштабирует это поведение с помощью двухэтапного конвейера обучения с подкреплением (RL), который переходит от RL с верифицируемыми вознаграждениями к более тонкому RL на уровне доказательств, и, наконец, повышает производительность решения за счет масштабирования во время тестирования. Применяя этот рецепт, мы обучаем магистральную модель 30B-A3B с помощью SFT на примерно 340K траекториях длиной до 8K токенов с последующими 200 шагами RL. Полученная модель, SU-01, поддерживает устойчивое рассуждение над сложными задачами с траекториями, превышающими 100K токенов, при этом достигая показателей золотой медали на математических и физических олимпиадах, включая IMO 2025/USAMO 2026 и IPhO 2024/2025. Она также демонстрирует сильную обобщаемость научных рассуждений на области за пределами математики и физики.
Генерация интерактивного видео в реальном времени требует низкой задержки, потоковой передачи и контролируемого развертывания. Существующие методы авторегрессионной (AR) диффузионной дистилляции достигли высоких результатов в режиме фрагментарной обработки с 4 шагами, дистиллируя двунаправленные базовые модели в малошаговые AR-студенты, однако они по-прежнему ограничены грубой гранулярностью отклика и существенной задержкой выборки. В данной работе мы исследуем более агрессивную постановку: покадровую авторегрессию с всего 1–2 шагами выборки. В этом режиме мы идентифицируем инициализацию малошагового AR-студента как ключевое узкое место: существующие стратегии либо смещены относительно цели, либо неспособны к малошаговой генерации, либо слишком затратны для масштабирования. Мы предлагаем Causal Forcing++ — принципиальный и масштабируемый конвейер, использующий каузальную дистилляцию согласованности (каузальный CD) для малошаговой AR-инициализации. Основная идея заключается в том, что каузальный CD обучает то же AR-условное потоковое отображение, что и каузальная ODE-дистилляция, но получает супервизию от одного онлайн-шага ODE-учителя между соседними временными шагами, избегая необходимости предварительного вычисления и хранения полных траекторий PF-ODE. Это делает инициализацию как более эффективной, так и более простой в оптимизации. Полученный конвейер, \ours, превосходит SOTA 4-шаговый фрагментарный Causal Forcing в **покадровом 2-шаговом режиме** на 0,1 по VBench Total, на 0,3 по VBench Quality и на 0,335 по VisionReward, одновременно сокращая задержку первого кадра на 50% и стоимость обучения на этапе 2 примерно в 4 раза. Кроме того, мы расширяем конвейер на генерацию модели мира, обусловленную действиями, в духе Genie3. Страница проекта: https://github.com/thu-ml/Causal-Forcing и https://github.com/shengshu-ai/minWM .
Обучение с подкреплением (RL) стало центральной парадигмой для пост-обучения LLM-агентов, однако его сигнал вознаграждения на уровне траекторий обеспечивает лишь грубое управление для взаимодействия на длинных горизонтах. Обучение с самодистилляцией на политике (OPSD) дополняет RL, вводя плотное управление на уровне токенов от ветви учителя, дополненной привилегированным контекстом. Однако перенос OPSD на многошаговые агенты оказывается проблематичным: накопление нестабильности многошагового взаимодействия дестабилизирует управление, в то время как привилегированное управление, обусловленное навыками, требует асимметричного подхода, поскольку негативные реакции учителя могут возникать из-за несовершенного извлечения или использования навыков. Мы представляем SDAR (самодистиллированное агентное обучение с подкреплением), которое рассматривает OPSD как управляемую вспомогательную цель, сохраняя RL в качестве основного оптимизационного ядра. SDAR отображает отделенные сигналы на уровне токенов в сигмоидный затвор, усиливая дистилляцию на одобренных учителем токенах с положительным разрывом и мягко ослабляя негативные реакции учителя. На семействах Qwen2.5 и Qwen3 в тестах ALFWorld, WebShop и Search-QA SDAR значительно превосходит GRPO (+9.4% на ALFWorld, +7.0% на Search-QA, +10.2% на WebShop-Acc), избегает нестабильности наивного GRPO+OPSD и последовательно превосходит гибридные базовые линии RL–OPSD на всех масштабах моделей.
Память необходима большим визуально-языковым моделям (LVLM) для обработки длительных мультимодальных взаимодействий, причем два направления методов обеспечивают эту способность: длинноконтекстные LVLM и агенты с дополненной памятью. Однако ни один существующий бенчмарк не проводит систематического сравнения этих двух подходов на вопросах, которые действительно требуют мультимодальных доказательств. Чтобы восполнить этот пробел, мы представляем MEMLENS — всеобъемлющий бенчмарк для памяти в мультимодальных многосессионных диалогах, состоящий из 789 вопросов, охватывающих пять способностей памяти (извлечение информации, межсессионное рассуждение, временное рассуждение, обновление знаний и отказ от ответа) при четырех стандартных длинах контекста (от 32K до 256K токенов) в рамках схемы подсчета токенов с перекрестной модальностью. Исследование с абляцией изображений подтверждает, что решение задач MEMLENS требует визуальных доказательств: удаление изображений с доказательствами снижает точность двух передовых LVLM ниже 2% на 80,4% вопросов, доказательства которых включают изображения. Оценивая 27 LVLM и 7 агентов с дополненной памятью, мы обнаруживаем, что длинноконтекстные LVLM достигают высокой точности на коротких контекстах за счет прямого визуального привязывания, но деградируют по мере роста диалогов, тогда как агенты с памятью стабильны к длине, но теряют визуальную точность при сжатии во время хранения. Межсессионное рассуждение ограничивает большинство систем точностью ниже 30%, и ни один подход по отдельности не решает задачу. Эти результаты мотивируют создание гибридных архитектур, которые сочетают внимание с длинным контекстом и структурированный мультимодальный поиск. Наш код доступен по адресу https://github.com/xrenaf/MEMLENS.
Мы представляем SANA-WM — эффективную открытую мировую модель с 2,6 миллиардами параметров, изначально обученную для генерации видео длительностью в одну минуту, синтезирующую высококачественные видео с разрешением 720p и минутной шкалой с точным управлением камерой. SANA-WM достигает визуального качества, сопоставимого с масштабными промышленными базовыми моделями, такими как LingBot-World и HY-WorldPlay, при значительном повышении эффективности. Четыре ключевых компонента лежат в основе нашей архитектуры: (1) Гибридное линейное внимание, объединяющее покадровое Gated DeltaNet (GDN) с softmax-вниманием для эффективного с точки зрения памяти моделирования длинных контекстов. (2) Двухканальное управление камерой обеспечивает точное следование траектории с шестью степенями свободы (6-DoF). (3) Двухэтапный конвейер генерации применяет уточнитель длинных видео к выходам первого этапа, повышая качество и согласованность последовательностей. (4) Надежный конвейер аннотирования извлекает точные метрические позы камеры с 6-DoF из публичных видео для получения высококачественных, пространственно-временных согласованных меток действий. Благодаря этим решениям, SANA-WM демонстрирует выдающуюся эффективность в отношении данных, вычислительных затрат на обучение и оборудования для инференса: она использует всего 213 тысяч публичных видеоклипов с супервизией поз в метрическом масштабе, завершает обучение за 15 дней на 64 H100 и генерирует каждый 60-секундный клип на одном GPU; её дистиллированный вариант может быть развернут на одном RTX 5090 с квантованием NVFP4 для денойзинга 60-секундного клипа 720p за 34 секунды. На нашем эталонном тесте одноминутных мировых моделей SANA-WM демонстрирует более высокую точность следования действиям по сравнению с предыдущими открытыми базовыми моделями и достигает сравнимого визуального качества при в 36 раз более высокой пропускной способности для масштабируемого моделирования мира.
Долговременная память агентов всё чаще становится мультимодальной, однако существующие оценки редко проверяют, сохраняют ли агенты визуальные свидетельства, необходимые для последующих рассуждений. В предыдущих работах многие вопросы, основанные на визуальной информации, можно было ответить, используя только подписи или текстовые следы, что позволяло получать ответы без сохранения детализированных визуальных свидетельств. В то же время более сложные случаи, требующие рассуждений об изменяющихся визуальных состояниях, практически отсутствуют. Поэтому мы представляем MemEye — фреймворк, оценивающий возможности памяти по двум измерениям: одно измеряет детализацию решающих визуальных свидетельств (от уровня сцены до уровня пикселей), а другое — то, как извлечённые свидетельства должны использоваться (от единичного свидетельства до эволюционного синтеза). В рамках этого фреймворка мы создаём новый эталонный набор данных по 8 задачам, моделирующим жизненные сценарии, с валидационными проверками на основе абляции для оценки возможности ответа, устойчивости к shortcut-решениям, визуальной необходимости и структуры рассуждений. Оценив 13 методов работы с памятью на 4 основах VLM, мы показываем, что современные архитектуры по-прежнему испытывают трудности с сохранением детализированных визуальных данных и рассуждениями об изменениях состояния во времени. Наши результаты показывают, что долговременная мультимодальная память зависит от маршрутизации свидетельств, временного отслеживания и извлечения деталей.
Мы представляем Darwin Family — фреймворк для эволюционного слияния больших языковых моделей без обучения, основанный на рекомбинации в пространстве весов без использования градиентов. Мы исследуем, можно ли улучшить производительность рассуждений на передовом уровне без дополнительного обучения, реорганизуя скрытые способности, уже закодированные в существующих контрольных точках. Darwin вводит три ключевые идеи: (i) 14-мерный адаптивный геном слияния, обеспечивающий рекомбинацию на уровне компонентов и блоков с высокой детализацией; (ii) MRI-Trust Fusion, который адаптивно балансирует сигналы диагностической важности слоёв с эволюционным поиском через обучаемый параметр доверия; и (iii) Архитектурный картограф, позволяющий межархитектурное скрещивание между гетерогенными семействами моделей. Эмпирически флагманская модель Darwin-27B-Opus достигает 86,9% на GPQA Diamond, занимая 6-е место среди 1,252 оценённых моделей, и превосходит свою полностью обученную базовую модель без какого-либо градиентного обучения. В диапазоне масштабов от 4B до 35B параметров модели Darwin последовательно превосходят своих родителей, поддерживают рекурсивную многопоколенную эволюцию и реализуют эволюционное слияние без обучения, объединяющее компоненты на основе Transformer и Mamba. В совокупности семейство Darwin демонстрирует, что эволюционное слияние, направляемое диагностикой, является практичной и воспроизводимой альтернативой дорогостоящим конвейерам пост-обучения для языковых моделей, ориентированных на рассуждения.
Автономные агенты на основе больших языковых моделей (LLM) демонстрируют высокие способности в рассуждении, планировании и использовании инструментов, однако их возможности остаются ограниченными, когда задачи требуют устойчивой координации между ролями, инструментами и средами. Мультиагентные системы решают эту проблему за счет структурированного взаимодействия специализированных агентов, однако более тесная координация усиливает менее изученный риск: ошибки могут распространяться между агентами и раундами взаимодействия, приводя к сбоям, которые трудно диагностировать и которые редко приводят к структурному самосовершенствованию. Существующие обзоры рассматривают либо отдельные способности агентов, либо мультиагентное взаимодействие, либо самоэволюцию агентов по отдельности, оставляя без внимания причинно-следственные зависимости между этими аспектами. Настоящий обзор предлагает унифицированное рассмотрение, организованное вокруг четырех этапов, связанных причинно-следственными связями, которые мы обозначаем как прогрессия LIFE: Заложить основу способностей, Интегрировать агентов через сотрудничество, Найти неисправности через атрибуцию и Эволюционировать через автономное самосовершенствование. Для каждого этапа мы представляем систематические таксономии и формально характеризуем зависимости между смежными этапами, показывая, как каждый этап одновременно зависит от следующего и накладывает на него ограничения. Помимо обобщения существующих работ, мы выявляем открытые проблемы на границах этапов и предлагаем межэтапную исследовательскую программу для мультиагентных систем с замкнутым циклом, способных непрерывно диагностировать сбои, реорганизовывать структуры и уточнять поведение агентов, расширяя существующие координационные рамки в направлении более самоорганизующихся форм коллективного интеллекта. Объединяя эти ранее разрозненные направления исследований, данный обзор призван стать как систематическим справочником, так и концептуальной дорожной картой на пути к автономному, самосовершенствующемуся мультиагентному интеллекту.
Агенты на основе больших языковых моделей (LLM) всё чаще должны поддерживать когерентную, долгосрочную персонализированную память, однако современные тесты в основном измеряют статическое извлечение фактов, упуская из виду способность пересматривать сохранённые убеждения при появлении новых доказательств. Мы выявляем критический и малоизученный тип сбоя — имплицитный конфликт: более позднее наблюдение опровергает более раннее воспоминание без явного отрицания, что требует контекстного вывода и применения здравого смысла для его обнаружения. Для строгой оценки этой способности мы представляем STALE — эталон из 400 подтверждённых экспертами сценариев конфликтов (1200 оценочных запросов по трём зондирующим измерениям), охватывающий более 100 повседневных тем с контекстами объёмом до 150 тысяч токенов. Мы предлагаем трёхмерную зондирующую структуру, которая проверяет: разрешение состояния (обнаружение того, что предыдущее убеждение устарело), устойчивость к предпосылкам (отклонение запросов, ложно предполагающих устаревшее состояние) и имплицитную адаптацию политики (активное применение обновлённых состояний в последующем поведении). Систематическая оценка передовых LLM и специализированных фреймворков для памяти выявляет повсеместный разрыв между извлечением обновлённых свидетельств и действиями на их основе: даже лучшая из оценённых моделей достигает лишь 55,2% общей точности. Модели часто принимают устаревшие допущения, встроенные в запрос пользователя, и с трудом распознают, когда изменение одного аспекта состояния пользователя должно аннулировать связанные воспоминания. Чтобы установить начальный базис для памяти, учитывающей состояния, мы также представляем CUPMem — прототип, усиливающий ревизию на этапе записи с помощью структурированной консолидации состояний и поиска с учётом распространения, что указывает на то, что явное согласование состояний является перспективным направлением для создания устойчивой агентской памяти.
Крупные языковые модели и модели «язык-зрение» всё чаще используются в качестве агентов, действующих от имени пользователя через инструменты командной строки (CLI). Однако большинство бенчмарков для агентов по-прежнему опираются на синтетические песочницы, задачи с коротким горизонтом, имитируемые API-сервисы и проверку конечных ответов, оставляя открытым вопрос, способны ли агенты выполнять реалистичные долгосрочные задачи в средах, где они развёрнуты. В данной работе представлен WildClawBench — нативный бенчмарк, состоящий из 60 авторских двуязычных мультимодальных задач, охватывающих шесть тематических категорий. Каждая задача в среднем требует около 8 минут реального времени и более 20 вызовов инструментов, выполняясь внутри воспроизводимого Docker-контейнера, в котором работает реальный CLI-агент (OpenClaw, Claude Code, Codex или Hermes Agent) с доступом к настоящим инструментам, а не имитируемым сервисам. Оценка гибридная: сочетает детерминированные проверки на основе правил, аудит состояния среды на предмет побочных эффектов и судью на основе LLM/VLM для семантической верификации. Из 19 передовых моделей лучшая — Claude Opus 4.7 — достигает лишь 62,2% общего успеха в среде OpenClaw, тогда как все остальные модели остаются ниже 60%, а смена одной только платформы смещает результат одной модели до 18 пунктов. Эти результаты показывают, что оценка долгосрочной работы агентов в нативной среде остаётся далёкой от решения задачей для современных передовых моделей. Мы публикуем задачи, код и контейнеризированные инструменты для обеспечения воспроизводимой оценки.
Контролируемое камерой создание видео достигло значительного прогресса, позволяя генерируемым видео следовать заданным траекториям обзора. Однако существующие методы обычно обучают условную привязку к камере с помощью кодеров камеры, управляющих ветвей или модификаций внимания и позиционного кодирования, что часто требует дообучения на крупномасштабных видео с аннотированными камерами. Альтернативы, не требующие обучения, избегают такого дообучения, но часто переносят затраты на оптимизацию во время тестирования или дополнительное сопровождение на этапе шумоподавления. Мы предлагаем Warp-as-History — простой интерфейс, который преобразует индуцированные камерой деформации в деформированные псевдоистории с выравниванием позиций целевых кадров и выбором видимых токенов. Учитывая заданную траекторию камеры, мы строим деформированные камерой псевдоистории из прошлых наблюдений и подаем их через путь визуальной истории модели. Важно, что мы выравниваем их позиционное кодирование с целевыми кадрами, подвергающимися шумоподавлению, и удаляем токены деформированной истории без допустимых исходных наблюдений. Без какого-либо обучения, архитектурных модификаций или оптимизации во время тестирования этот интерфейс демонстрирует нетривиальную способность нулевого выстрела замороженной модели генерации видео следовать траекториям камеры. Более того, легковесное автономное дообучение LoRA всего на одном видео с аннотированной камерой дополнительно улучшает эту способность и обобщается на невиданные видео, улучшая соответствие камере, визуальное качество и динамику движения без оптимизации во время тестирования или адаптации к целевому видео. Обширные эксперименты на различных наборах данных подтверждают эффективность нашего метода.
По мере расширения экосистемы больших языковых моделей (LLM) отдельные модели демонстрируют различные возможности при выполнении запросов, тестов и в различных областях, что стимулирует разработку маршрутизации больших языковых моделей. Хотя предыдущие работы в основном были сосредоточены на проектировании механизмов маршрутизации, профили больших языковых моделей, отражающие возможности моделей, остаются недостаточно изученными. В данной работе мы задаем вопрос: как проектирование профилей больших языковых моделей влияет на эффективность маршрутизации при использовании различных маршрутизаторов? Ответ на этот вопрос помогает прояснить роль профилей в маршрутизации, разделить проектирование профилей и проектирование маршрутизаторов, а также обеспечить более объективное сравнение и более принципиальную разработку систем маршрутизации. С этой целью мы рассматриваем профилирование больших языковых моделей как задачу структурированной интеграции информации на основе разнородных историй взаимодействия. Мы разрабатываем общее пространство проектирования профилей больших языковых моделей, названное RouteProfile, по четырем ключевым измерениям: организационная форма, тип представления, глубина агрегации и конфигурация обучения. Путем систематической оценки на трех репрезентативных маршрутизаторах в условиях как стандартной, так и обобщающей настройки для новых больших языковых моделей мы показываем, что: (1) структурированные профили последовательно превосходят плоские; (2) сигналы на уровне запросов более надежны, чем грубые сигналы на уровне областей; (3) обобщение на вновь введенные модели получает наибольшую выгоду от структурированных профилей в настраиваемых конфигурациях. В целом, наша работа подчеркивает важность проектирования профилей больших языковых моделей как перспективного направления будущих исследований маршрутизации.
Память агентов обычно формируется либо в автономном режиме на основе кураторских демонстраций, либо в онлайн-режиме на основе взаимодействий после развертывания. Однако независимо от способа построения агент сталкивается с проблемой холодного старта при первом знакомстве с новой средой при отсутствии какого-либо специфического для задачи опыта. В данной работе мы исследуем предзадачное построение памяти: может ли агент сформировать процедурную память до наблюдения за задачами в целевой среде, используя только самостоятельно сгенерированную синтетическую практику. Однако одной лишь синтетической практики недостаточно, поскольку без контроля над тем, что практиковать и что сохранять, синтетические задачи становятся избыточными, невыполнимыми и, в конечном итоге, неинформативными, а память быстро деградирует из-за нефильтрованных траекторий. Для преодоления этого мы представляем Preping — фреймворк построения памяти с направляющим компонентом. Его основой является память-предлагатель (proposer memory) — структурированное управляющее состояние, которое формирует будущую практику. Предлагатель (Proposer) генерирует синтетические задачи, обусловленные этим состоянием, Решатель (Solver) выполняет их, а Валидатор (Validator) определяет, какие траектории подходят для вставки в память, а также предоставляет обратную связь для управления будущими предложениями. Эксперименты на AppWorld, BFCL v3 и MCP-Universe показывают, что Preping существенно превосходит базовый вариант без памяти и достигает производительности, сопоставимой с сильными методами на основе сценариев (playbook), построенными на автономном или онлайн-опыте, при этом стоимость развертывания на AppWorld в 2,99 раза ниже, а на BFCL v3 — в 2,23 раза ниже по сравнению с онлайн-построением памяти. Дальнейший анализ показывает, что основное преимущество обусловлено не только объемом синтетических данных, а контролем со стороны предлагателя над выполнимостью, избыточностью и покрытием в сочетании с селективным обновлением памяти.
Долговременная память необходима для LLM-агентов, работающих в течение нескольких сессий, однако существующие системы памяти рассматривают инфраструктуру извлечения как фиксированную: хранимое содержимое эволюционирует, в то время как функции оценки, стратегии слияния и политики генерации ответов остаются замороженными на этапе развертывания. Мы утверждаем, что по-настоящему адаптивная память требует совместной эволюции на двух уровнях: хранимых знаний и механизма извлечения, который к ним обращается. Мы представляем EvolveMem — самоэволюционирующую архитектуру памяти, которая представляет свою полную конфигурацию извлечения в виде структурированного пространства действий, оптимизируемого модулем диагностики на основе LLM. В каждом раунде эволюции модуль читает журналы отказов по каждому вопросу, выявляет коренные причины и предлагает целевые корректировки конфигурации; защищенный мета-анализатор применяет их с автоматическими механизмами защиты: откатом при регрессии и исследованием при стагнации. Эта замкнутая самоэволюция реализует процесс AutoResearch: система автономно проводит итерационные исследовательские циклы над собственной архитектурой, заменяя ручную настройку конфигурации. Начиная с минимального базового уровня, процесс сходится автономно, обнаруживая эффективные стратегии извлечения, включая совершенно новые измерения конфигурации, отсутствовавшие в исходном пространстве действий. На LoCoMo EvolveMem превосходит сильнейший базовый уровень на 25,7% относительно и достигает 78,0% относительного улучшения по сравнению с минимальным базовым уровнем. На MemBench EvolveMem превосходит сильнейший базовый уровень на 18,9% относительно. Эволюционировавшие конфигурации переносятся между тестовыми наборами с положительным, а не катастрофическим переносом, что указывает на то, что процесс самоэволюции улавливает универсальные принципы извлечения, а не специфичные для тестового набора эвристики. Код доступен по адресу: https://github.com/aiming-lab/SimpleMem.
Мы часто стремимся генерировать изображения, которые являются одновременно фотореалистичными и трехмерно-согласованными, подчиняясь точным ограничениям по геометрии, материалу и углу обзора. Обычно это достигается путем тонкой настройки генератора изображений, предварительно обученного на миллиардах реальных снимков, с использованием рендеров синтезированных 3D-объектов, для которых доступны аннотации управляющих сигналов. Хотя такой подход позволяет изучить желаемые управляющие сигналы, он часто снижает реалистичность изображений из-за разрыва доменов между фотографиями и рендерами. Мы наблюдаем, что эта проблема во многом возникает из-за того, что модель обучается нежелательной ассоциации между наличием управляющих сигналов и синтетическим видом изображений. Для решения этой проблемы мы представляем Realiz3D — легковесную структуру обучения диффузионных моделей, которая разделяет управляющие сигналы и визуальный домен. Ключевая идея заключается в том, чтобы явно изучать визуальный домен (реальный или синтетический) отдельно от других управляющих сигналов путем введения ковариаты, которая, будучи поданной в небольшие остаточные адаптеры, сдвигает домен. Затем генератор можно обучить для получения управляемости без подстройки под конкретный визуальный домен. Таким образом, модель можно направлять на создание реалистичных изображений даже при применении управляющих сигналов. Мы улучшаем переносимость управляющих сигналов на реальный домен, используя знания о роли различных слоев и шагов шумоподавления в диффузионных генераторах, что определяет новые стратегии обучения и инференса, которые дополнительно уменьшают разрыв. Мы демонстрируем преимущества Realiz3D в таких задачах, как генерация многовидовых изображений по текстовому описанию и наложение текстур по 3D-входным данным, создавая результаты, которые являются трехмерно-согласованными и фотореалистичными.
Визуальное рассуждение, часто переплетающееся с промежуточными визуальными состояниями, стало перспективным направлением в этой области. Прямолинейный подход заключается в непосредственной генерации изображений с помощью унифицированных моделей в процессе рассуждения, однако это вычислительно затратно и нетривиально с архитектурной точки зрения. Недавние альтернативы включают агентное рассуждение через код или вызовы инструментов, а также латентное рассуждение с обучаемыми скрытыми вложениями. Однако агентные методы вносят задержку переключения контекста из-за внешнего выполнения, в то время как латентные методы не обладают обобщением на задачи и трудно поддаются обучению с авторегрессионной параллелизацией. Чтобы объединить их сильные стороны, одновременно смягчая их ограничения, мы предлагаем ATLAS — фреймворк, в котором одно дискретное "слово", называемое функциональным токеном, служит одновременно и агентной операцией, и единицей латентного визуального рассуждения. Каждый функциональный токен связан с интернализованной визуальной операцией, но не требует визуального контроля и остается стандартным токеном в словаре токенизатора, который может быть сгенерирован с помощью предсказания следующего токена. Такая конструкция позволяет избежать многословной генерации промежуточного визуального контента, сохраняя при этом совместимость со стандартным масштабируемым обучением SFT и RL без архитектурных или методологических модификаций. Для дальнейшего решения проблемы разреженности функциональных токенов во время RL мы представляем LA-GRPO (Latent-Anchored GRPO), которая стабилизирует обучение, закрепляя функциональные токены с помощью статически взвешенной вспомогательной цели, обеспечивая более сильные обновления градиентов. Обширные эксперименты и анализ показывают, что ATLAS достигает превосходной производительности на сложных бенчмарках, сохраняя при этом четкую интерпретируемость. Мы надеемся, что ATLAS предложит новую парадигму, вдохновляющую будущие исследования в области визуального рассуждения.
Поиск пути для нескольких агентов (Multi-agent pathfinding, MAPF) представляет собой широко используемую абстракцию для задач планирования траекторий нескольких роботов, в которой множество однородных агентов движутся одновременно в общей среде. Хотя оптимальное решение MAPF является NP-трудной задачей, масштабируемые и эффективные решатели критически важны для практических приложений, таких как логистика и поисково-спасательные операции. Для этого научное сообщество предложило различные децентрализованные неоптимальные решатели MAPF, использующие машинное обучение. Такие методы рассматривают MAPF (с точки зрения отдельного агента) как децентрализованный частично наблюдаемый марковский процесс принятия решений (Dec-POMDP), где на каждом временном шаге агент должен выбрать действие на основе локального наблюдения, и обычно решают задачу с помощью обучения с подкреплением или имитационного обучения. Мы следуем тому же подходу, но дополнительно вводим обучаемый модуль связи, предназначенный для улучшения кооперации между агентами за счет эффективного обмена признаками. Мы представляем Local Communication for Multi-agent Pathfinding (LC-MAPF) — обобщаемую предварительно обученную модель, которая использует многораундовую связь между соседними агентами для обмена информацией и улучшения их координации. Наши эксперименты показывают, что предложенный метод превосходит существующие обучаемые решатели MAPF, включая подходы на основе имитационного обучения и обучения с подкреплением, по различным метрикам в широком спектре (неизвестных) тестовых сценариев. Примечательно, что введенный механизм связи не ухудшает масштабируемость LC-MAPF, что является распространенным узким местом для решателей MAPF, основанных на связи.
Многие реальные задачи по программированию являются открытыми и не имеют известного оптимального решения. Однако последние достижения в области кодирования с помощью LLM были сосредоточены на хорошо определённых задачах, таких как реализация функциональности, исправление ошибок и соревновательное программирование. Открытое кодирование остаётся слабым местом для LLM, во многом из-за того, что тренировочные задачи открытого типа редки и дороги в создании. Наша цель — синтезировать открытые задачи по программированию в масштабе для обучения более сильных LLM-кодеров. Мы представляем FrontierSmith — автоматизированную систему для итеративной эволюции открытых задач из существующих замкнутых задач по программированию. Начиная с задач соревновательного программирования, FrontierSmith генерирует кандидатные открытые варианты, изменяя цели задач, ограничивая выходные данные и обобщая входные. Затем используется количественная метрика расхождения идей для отбора задач, которые вызывают действительно разнообразные подходы у разных решателей. Агенты создают тестовые примеры и верификаторы для выживших кандидатов. На двух бенчмарках открытого кодирования обучение на наших синтезированных данных даёт существенный прирост по сравнению с базовыми моделями: Qwen3.5-9B показывает улучшение на +8,82 балла на FrontierCS и +306,36 (производительность на основе рейтинга Эло) на ALE-bench; Qwen3.5-27B улучшается на +12,12 и +309,12 соответственно. Синтезированные задачи также заставляют агентов совершать больше шагов и использовать больше токенов, аналогично задачам, созданным людьми, что позволяет предположить, что замкнутые «затравки» могут быть практической отправной точкой для данных по долгосрочному программированию.
Обучение каузальных трансформеров на последовательностях экстремальной длины ограничено квадратичными затратами времени и памяти, характерными для масштабированного скалярного произведения внимания (SDPA). В данной работе мы предлагаем «Lighthouse Attention» — алгоритм иерархического внимания на основе симметричной селекции, предназначенный исключительно для обучения. Этот алгоритм оборачивает обычный SDPA и может быть легко удалён ближе к концу обучения. Наш иерархический отбор также не требует вычисления градиентов, что избавляет от необходимости реализации сложного и потенциально неэффективного обратного прохода через ядро. Наш вклад состоит из трёх частей: (i) Этап доквадратичной иерархической пред- и постобработки, выполняющий адаптивное сжатие и разжатие последовательности. (ii) Стратегия симметричного сжатия, которая одновременно объединяет запросы, ключи и значения, сохраняя при этом каузальность слева направо, что значительно улучшает параллелизм. (iii) Двухэтапный подход к обучению: мы проводим предобучение в течение большей части времени с использованием «Lighthouse Attention», а затем восстанавливаем модель полного внимания с помощью короткого этапа обучения. Мы провели предварительные эксперименты по предобучению LLM малого масштаба, которые показывают эффективность нашего метода по сравнению с обучением на полном внимании при всех прочих равных условиях: мы достигли меньшего общего времени обучения и более низкого финального значения функции потерь после восстановительной фазы. Полный код доступен по адресу: https://github.com/ighoshsubho/lighthouse-attention
Данные имитации в робототехнике часто являются мультимодальными: сходные визуально-языковые наблюдения могут приводить к разным отрезкам действий, поскольку демонстраторы-люди действуют с разными краткосрочными намерениями, фазами задачи или недавним контекстом. Существующие политики VLA, обусловленные кадрами, выводят каждый отрезок только на основе текущего наблюдения и инструкции, поэтому в условиях частичной наблюдаемости они могут заново выбирать разные намерения на соседних шагах перепланирования, что приводит к межчанковому конфликту и нестабильному выполнению. Мы представляем IntentVLA — фреймворк VLA, обусловленный историей, который кодирует недавние визуальные наблюдения в компактное представление краткосрочных намерений и использует его для обусловливания генерации отрезков. Дополнительно мы вводим AliasBench — эталонный набор задач с неоднозначностью на 12 задач на платформе RoboTwin2, содержащий согласованные обучающие данные и среды оценки, изолирующие эффект омонимичности наблюдений на коротких горизонтах. На AliasBench, SimplerEnv, LIBERO и RoboCasa IntentVLA улучшает стабильность развертывания и превосходит сильные базовые модели VLA.
Обучение с подкреплением стало мощным инструментом для улучшения диффузионных моделей типа «текст-изображение», однако существующие методы в значительной степени ограничены оптимизацией отдельной задачи. Расширение обучения с подкреплением на множество задач представляет собой сложную задачу: совместная оптимизация страдает от межзадачной интерференции и дисбаланса, а каскадное обучение с подкреплением громоздко и подвержено катастрофическому забыванию. Мы предлагаем DiffusionOPD — новую парадигму многозадачного обучения для диффузионных моделей, основанную на онлайн-дистилляции политик (Online Policy Distillation, OPD). DiffusionOPD сначала независимо обучает учителей для отдельных задач, а затем дистиллирует их способности в единого студента вдоль его собственных траекторий развёртывания. Это разделяет исследование отдельных задач и многозадачную интеграцию, избегая бремени оптимизации, связанного с решением всех задач с нуля совместно. Теоретически мы обобщаем фреймворк OPD с дискретных токенов на марковские процессы с непрерывным состоянием, выводя аналитическое выражение для пошаговой цели KL, которая объединяет как стохастическое уточнение с помощью СДУ, так и детерминированное уточнение с помощью ОДУ через согласование средних. Мы формально и эмпирически демонстрируем, что этот аналитический градиент обеспечивает меньшую дисперсию и лучшую обобщаемость по сравнению с традиционными градиентами политик в стиле PPO. Обширные эксперименты показывают, что DiffusionOPD неизменно превосходит как базовые методы многозадачного обучения с подкреплением с несколькими наградами, так и каскадного обучения с подкреплением по эффективности обучения и итоговой производительности, достигая при этом самых современных результатов на всех оценённых эталонных тестах.
Высококачественная реконструкция 3D-сцен в последнее время продвинулась в сторону обобщаемых feed-forward архитектур, позволяющих генерировать сложные среды за один прямой проход. Однако, несмотря на высокую производительность в восприятии статических сцен, эти модели остаются ограниченными в реагировании на динамические инструкции человека, что ограничивает их использование в интерактивных приложениях. Существующие методы редактирования обычно полагаются на стратегию 2D-подъема, при которой отдельные виды редактируются независимо, а затем поднимаются обратно в 3D-пространство. Этот косвенный пайплайн часто приводит к размытым текстурам и несогласованной геометрии, поскольку 2D-редакторам не хватает пространственного осознания, необходимого для сохранения структуры между ракурсами. Для преодоления этих ограничений мы предлагаем VGGT-Edit — feed-forward фреймворк для текстово-обусловленного нативного редактирования 3D-сцен. VGGT-Edit вводит синхронизированное по глубине внедрение текста для согласования семантического руководства с пространственными позами бэкбона, обеспечивая стабильное закрепление инструкций. Затем этот семантический сигнал обрабатывается головкой остаточного преобразования, которая напрямую предсказывает 3D геометрические смещения для деформации сцены при сохранении стабильности фона. Для обеспечения высокоточных результатов мы обучаем фреймворк с помощью многочленной целевой функции, которая обеспечивает геометрическую точность и согласованность между видами. Мы также создаем датасет DeltaScene — крупномасштабный датасет, сгенерированный с помощью автоматизированного пайплайна с фильтрацией по 3D согласованности для обеспечения качества истинных данных. Эксперименты показывают, что VGGT-Edit значительно превосходит базовые линии на основе 2D-подъема, обеспечивая более четкие детали объектов, более сильную согласованность между видами и почти мгновенную скорость вывода.
Агентное моделирование направлено на превращение больших языковых моделей (LLM) в автономных агентов, способных решать сложные задачи с помощью планирования, рассуждения, использования инструментов и многошагового взаимодействия со средами. Несмотря на значительные инвестиции, открытые исследования остаются ограниченными из-за пробелов в инфраструктуре и обучении. Многие высокопроизводительные системы полагаются на проприетарные кодовые базы, модели или сервисы, в то время как большинство фреймворков с открытым исходным кодом сосредоточены на оркестровке и оценке, а не на масштабируемом обучении агентов. Мы представляем Orchard — фреймворк с открытым исходным кодом для масштабируемого агентного моделирования. В его основе лежит Orchard Env — легковесный сервис среды, предоставляющий повторно используемые примитивы для управления жизненным циклом песочницы в различных предметных областях задач, обвязках агентов и этапах конвейера. На основе Orchard Env мы создаем три рецепта агентного моделирования. Orchard-SWE нацелен на агентов по написанию кода. Мы дистиллируем 107 тысяч траекторий из MiniMax-M2.5 и Qwen3.5-397B, вводим SFT с присвоением кредита для обучения на продуктивных сегментах неразрешенных траекторий и применяем сбалансированный адаптивный прогон для RL. Начиная с Qwen3-30B-A3B-Thinking, Orchard-SWE достигает 64,3% на SWE-bench Verified после SFT и 67,5% после SFT+RL, устанавливая новый уровень наилучших результатов среди открытых моделей сопоставимого размера. Orchard-GUI обучает агента по использованию компьютера с 4 миллиардами параметров на основе зрения и языка, используя всего 0,4 тысячи дистиллированных траекторий и 2,2 тысячи открытых задач. Он достигает 74,1%, 67,0% и 64,0% успешности на WebVoyager, Online-Mind2Web и DeepShop соответственно, что делает его сильнейшей открытой моделью, оставаясь при этом конкурентоспособным с проприетарными системами. Orchard-Claw нацелен на агентов-личных помощников. Обучаясь всего на 0,2 тысячи синтетических задач, он достигает 59,6% pass@3 на Claw-Eval и 73,9% при использовании в паре с более сильной обвязкой ZeroClaw. В совокупности эти результаты показывают, что легковесный, открытый, не зависящий от обвязки уровень среды обеспечивает возможность повторного использования агентных данных, рецептов обучения и оценок в различных областях.
Любое новое средство коммуникации, как только оно появляется, используется не только для передачи явного содержания. Информация, которую оно несёт, обычно действует на двух уровнях: один — это непосредственно представленное содержание, а другой — подтекст, скрытые идеи и намерения, которые создатель стремится донести через этот носитель. Аналогично, с момента широкого внедрения видеотехнологий видео служит не только мощным инструментом для записи и передачи визуальной информации, но и носителем эмоций, установок и социальных смыслов, которые зачастую трудно выразить в явной форме. Таким образом, истинный смысл многих видеороликов заключается не только в том, что показано на экране; он нередко заложен в контексте, стиле подачи и социальном опыте зрителя. Некоторые формы такого видеоподтекста носят юмористический характер, другие же несут иронию, насмешку или критику. Эти неявные смыслы могут по-разному интерпретироваться в зависимости от культурных особенностей и социальных групп. Однако большинство существующих моделей понимания видео по-прежнему ориентированы в первую очередь на буквальное визуальное восприятие, такое как распознавание объектов, действий или временных связей, и не обладают системной способностью понимать метафорические, иронические и социальные смыслы, заложенные в видео. Чтобы восполнить этот пробел, мы представляем ViMU — первый эталонный набор данных, предназначенный для систематической оценки способности передовых моделей понимать подтекст в видео. ViMU проверяет, могут ли модели понимания видео выйти за рамки буквального восприятия, чтобы выводить неявный смысл, обосновывая свои интерпретации мультимодальными доказательствами и отвечая как на открытые вопросы, так и на вопросы с множественным выбором. Важно отметить, что все вопросы составлены таким образом, чтобы не содержать подсказок: до ответа модели не раскрывается никаких ключевых свидетельств.
Авторегрессионные (AR) модели диффузии видео используют потоковый генеративный фреймворк, обеспечивающий создание видео большой длительности с мгновенной реакцией, как показано на примере обучающей парадигмы Self Forcing. Однако существующие AR-модели диффузии видео по-прежнему страдают от значительной сложности внимания и серьезных накладных расходов памяти из-за избыточных кэшей ключ-значение (KV) для исторических кадров, что ограничивает масштабируемость. В данной работе мы решаем эту проблему, внедряя сжатие KV-кэша в авторегрессионную диффузию видео. Мы обнаружили, что головы внимания в основных AR-моделях диффузии демонстрируют ярко выраженные различные паттерны внимания и функциональные роли, которые остаются стабильными при изменении семплов и шагов денойзинга. Основываясь на нашем эмпирическом исследовании функциональной специализации голов, мы разделяем головы внимания на две категории: статические головы, которые сосредоточены на переходах между авторегрессионными блоками и внутрикадровой точности, и динамические головы, управляющие межкадровым движением и согласованностью. Затем мы предлагаем Forcing-KV — гибридную стратегию сжатия KV-кэша, выполняющую структурное статическое прореживание для статических голов и динамическое прореживание на основе посегментной схожести для динамических голов. При сохранении качества выходных данных наш метод достигает скорости генерации более 29 кадров в секунду на одном GPU NVIDIA H200 с сокращением объема кэша на 30%, обеспечивая ускорение до 1,35 и 1,50 раз для LongLive и Self Forcing при разрешении 480P, а также масштабируясь до ускорения в 2,82 раза при разрешении 1080P. Код и демонстрационные видео доступны по адресу https://zju-jiyicheng.github.io/Forcing-KV-Page.
Недавние достижения в области генерации изображений позволили легко создавать высококачественные изображения. Однако эти результаты по своей сути являются плоскими, объединяя элементы переднего плана, фон и текст в фиксированном холсте. В результате гибкое редактирование после генерации по-прежнему остается сложной задачей, выявляя явный разрыв последней мили на пути к практической применимости. Существующие подходы либо полагаются на редкие проприетарные послойные ресурсы, либо создают частично синтетические данные на основе ограниченных структурных априорных знаний. Однако обе стратегии сталкиваются с фундаментальными проблемами масштабируемости. В данной работе мы исследуем, могут ли чисто синтетические послойные данные улучшить декомпозицию графического дизайна. Мы исходим из предположения, что в графическом дизайне эффективная декомпозиция не требует моделирования межслойных зависимостей так же точно, как при композиции естественных изображений, поскольку элементы дизайна часто намеренно располагаются как модульные и семантически разделяемые компоненты. Конкретно, мы проводим исследование, ориентированное на данные, на основе базовой модели CLD, которая является современной структурой декомпозиции слоев. Основываясь на этой базовой модели, мы создаем собственный синтетический набор данных SynLayers, генерируем текстовое супервизорное обучение с использованием моделей зрения и языка (VLM) и автоматизируем входные данные для вывода с помощью ограничивающих рамок, предсказанных VLM. Наше исследование выявляет три ключевых вывода: (1) даже обучение на чисто синтетических данных может превзойти немасштабируемые альтернативы, такие как широко используемый набор данных PrismLayersPro, демонстрируя его жизнеспособность в качестве масштабируемой и эффективной замены; (2) производительность последовательно улучшается с увеличением масштаба обучающих данных, при этом прирост начинает насыщаться при около 50 тыс. образцов; и (3) синтетические данные обеспечивают сбалансированный контроль распределения количества слоев, избегая дисбаланса количества слоев, обычно наблюдаемого в реальных наборах данных. Мы надеемся, что это исследование, ориентированное на данные, будет способствовать более широкому внедрению синтетических данных в качестве практической основы для систем редактирования многослойного дизайна.
Каузальные авторегрессионные видеомодели диффузии поддерживают потоковую генерацию в реальном времени за счет экстраполяции будущих блоков на основе ранее сгенерированного контента. Дистилляция таких генераторов из высокоточных двунаправленных учителей позволяет получить конкурентоспособные модели с малым числом шагов, однако сохраняющийся разрыв между распределениями истории, встречающимися во время обучения и возникающими при инференсе, ограничивает качество генерации на длинных горизонтах. Мы представляем Сеть реального времени для авторегрессионной экстраполяции видео (RAVEN) — тестовый фреймворк времени обучения, который переупаковывает каждый собственный разверточный цикл в перемежающуюся последовательность чистых исторических конечных точек и зашумленных состояний денойзинга. Такая формулировка согласовывает внимание во время обучения с экстраполяцией на этапе инференса и позволяет потерям последующих блоков контролировать представления истории, от которых зависят будущие предсказания. Далее мы предлагаем Групповую оптимизацию относительной политики на основе модели согласованности (CM-GRPO), которая переформулирует шаг семплирования согласованности как условный гауссовский переход и применяет онлайн-обучение с подкреплением (RL) непосредственно к этому ядру, избегая вспомогательного процесса Эйлера–Маруямы, используемого в предыдущих формулировках RL для моделей потоков. Эксперименты демонстрируют, что RAVEN превосходит недавние базовые линии каузальной дистилляции видео по оценкам качества, семантики и степени динамики, а CM-GRPO обеспечивает дополнительный прирост при совместном использовании с RAVEN.
Мультимодальные большие лабораторные модели (MLLM) всё ещё испытывают трудности с пространственным пониманием в рамках доминирующей парадигмы перспективных изображений, которая наследует узкое поле зрения, характерное для человеческого восприятия. Для навигации, роботизированного поиска и понимания трёхмерных сцен 360-градусное панорамное восприятие предлагает форму сверхчувствительности, захватывая единовременно всё окружающее пространство. Однако существующие конвейеры MLLM обычно разбивают панорамы на множество перспективных видов, оставляя сферическую структуру экваториальной проекции (ERP) в значительной степени неявной. В данной статье мы исследуем панорамно-родное понимание (pano-native understanding), требующее от MLLM рассуждения над ERP-панорамой как непрерывным пространством, центрированным относительно наблюдателя. Для этого мы сначала определяем ключевые способности, необходимые для панорамно-родного понимания, включая семантическую привязку, сферическую локализацию, преобразование систем отсчёта и пространственное 3D-рассуждение с учётом глубины. Затем мы строим масштабный конвейер создания метаданных, преобразующий ERP-панорамы из смешанных источников в обучающие сигналы, учитывающие геометрию, языковую привязку и глубину, и реализуем эти сигналы в виде данных для тонкой настройки по инструкциям, согласованных с указанными способностями. На стороне модели мы представляем PanoWorld с сферическим пространственным перекрёстным вниманием (Spherical Spatial Cross-Attention), которое внедряет сферическую геометрию в визуальный поток. Дополнительно мы создаём PanoSpace-Bench — диагностический эталон для оценки ERP-родного пространственного мышления. Эксперименты показывают, что PanoWorld существенно превосходит как проприетарные, так и открытые базовые модели на эталонах PanoSpace-Bench, H* Bench и R2R-CE Val-Unseen. Эти результаты демонстрируют, что надёжное панорамное мышление требует специализированного панорамно-родного обучения и адаптации модели с учётом геометрии. Весь исходный код и предлагаемые данные будут опубликованы в открытом доступе.
Системы памяти критически важны для агентов ролевых игр (RPA), обеспечивая согласованность на длинных временных горизонтах. Однако существующие методы памяти для RPA (например, профилирование) в основном опираются на рекуррентное обобщение, чьё сжатие неизбежно отбрасывает важные детали. Для решения этой проблемы мы предлагаем поисковую структуру памяти под названием BOOKMARKS, которая активно инициализирует, поддерживает и обновляет релевантные для текущей задачи (например, отыгрыша персонажа) элементы закладок. Закладка оформляется как ответ на вопрос в определённой точке сюжетной линии. Для каждой текущей задачи BOOKMARKS выбирает повторно используемые существующие закладки или инициализирует новые (в начале сюжетной линии) с полезными вопросами. Затем эти закладки синхронизируются с текущей точкой повествования, а их ответы соответствующим образом обновляются, что позволяет эффективно повторно использовать их в последующих раундах привязки к контексту. По сравнению с рекуррентным обобщением, BOOKMARKS предлагает (1) активную привязку для захвата специфических для задачи деталей и (2) пассивное обновление во избежание излишних вычислений. В реализации BOOKMARKS поддерживает поиск концепций, поведения и состояний, каждый из которых обеспечивается эффективным методом синхронизации. BOOKMARKS значительно превосходит базовые методы памяти для RPA на 85 персонажах из 16 артефактов, демонстрируя эффективность поисковой памяти для RPA.
Мы придерживаемся концепции самоулучшающихся языковых моделей, в которой модель не просто генерирует задачи или траектории для подражания, а создает окружения, которые ее обучают. В RL с нулевым объемом данных для рассуждений это переводит самоулучшение из цикла генерации данных в цикл построения окружений, где каждый артефакт представляет собой многократно используемый исполняемый объект, который выбирает экземпляры, вычисляет эталоны и оценивает ответы. Устойчивость такого улучшения зависит от одного свойства: окружения должны демонстрировать стабильную асимметрию между решением и проверкой — модель должна быть способна однажды написать оракул, который она не может надежно выполнить на естественном языке для новых экземпляров. Эта асимметрия принимает две взаимодополняющие формы. Одни задачи алгоритмически сложны для логического вывода, но тривиальны в виде кода: динамическое программирование или обход графа, скомпилированные единожды, порождают неограниченно много калиброванных экземпляров. Другие — внутренне сложны для решения, но легки для проверки, например, встроенная задача о сумме подмножеств или выполнение ограничений. И то, и другое создает устойчивый разрыв между предлагаемым решением и фактическим разрешением задачи, который политика не может закрыть, обманывая верификатор, и именно этот разрыв сохраняет информативность награды по мере улучшения обучаемого. Мы реализуем эту концепцию в EvoEnv — методе генерации и решения с единой политикой, который синтезирует окружения на Python из десяти начальных точек и допускает их только после поэтапной валидации, семантической саморецензии, калибровки сложности относительно решателя и проверок новизны. Наиболее убедительные доказательства получены в сценарии, где модель уже сильна: на Qwen3-4B-Thinking фиксированный RLVR на основе публичных данных и фиксированный RLVR на основе вручную созданных окружений снижают средний показатель, тогда как EvoEnv повышает его с 72,4 до 74,8 — относительный прирост в 3,3%. Устойчивое самоулучшение, как мы предполагаем, зависит не от генерации большего объема синтетических данных, а от того, научатся ли модели создавать миры, сложность которых структурно превосходит их собственные возможности.
Генерация реалистичных движений человека остается центральной, но нерешенной задачей в области видеогенерации. Хотя пост-тренинг на основе обучения с подкреплением (RL) обеспечил недавние успехи в общем качестве видео, его применение к движениям человека ограничено из-за сигнала вознаграждения, который не может надежно оценить реалистичность движений. Существующие видеовознаграждения в основном опираются на 2D-перцептивные сигналы, без явного моделирования трехмерного состояния тела, контактов и динамики, лежащих в основе сочлененных движений человека, и часто присваивают высокие баллы видео с «плавающими» телами или физически неправдоподобными движениями. Для решения этой проблемы мы предлагаем PhyMotion — структурированное, детализированное вознаграждение за движение, которое привязывает восстановленные трехмерные траектории человека к физическому симулятору и оценивает качество движения по нескольким измерениям физической осуществимости. В частности, мы восстанавливаем сетки тела SMPL из сгенерированных видео, перенацеливаем их на гуманоида в физическом симуляторе MuJoCo и оцениваем результирующее движение по трем осям: кинематическая правдоподобность, согласованность контактов и баланса, а также динамическая осуществимость. Каждый компонент обеспечивает непрерывный и интерпретируемый сигнал, связанный с конкретным аспектом качества движения, что позволяет вознаграждению фиксировать, какие аспекты движения физически корректны или нарушены. Эксперименты показывают, что PhyMotion достигает более сильной корреляции с человеческими оценками, чем существующие формулировки вознаграждений. Эти улучшения переносятся на пост-тренинг на основе RL, где оптимизация PhyMotion приводит к более значительным и стабильным улучшениям, чем оптимизация существующих вознаграждений, повышая реалистичность движений как в авторегрессионных, так и в двунаправленных генераторах видео по автоматическим метрикам и в слепой человеческой оценке (+68 пунктов рейтинга Эло). Абляционные исследования показывают, что три оси обеспечивают взаимодополняющие сигналы обратной связи, при этом вознаграждение сохраняет общее качество видеогенерации с лишь скромными вычислительными накладными расходами.
Самодистилляция на основе текущей политики стала эффективным методом для рассуждений больших языковых моделей, когда привилегированный учитель контролирует собственные развёртки студента, обусловливая их эталонным решением. Однако один из аспектов дизайна, общий почти для всех таких методов, оставался неоспоримым: учитель всегда видит полное эталонное рассуждение. Мы утверждаем, что это умолчание само по себе является частью проблемы, и выявляем несоответствие экспозиции со стороны учителя: когда учитель обусловливает рассуждение, далеко выходящее за пределы текущей компетенции студента, результирующие целевые токены становятся слишком сложными для усвоения. Контролируемый перебор фиксированной экспозиции делает это конкретным на двух фронтах: 1) полная экспозиция не является надёжно наилучшим выбором, и 2) несоответствие студента и учителя монотонно возрастает по мере того, как учитель видит больше привилегированных рассуждений. Это мотивирует рассматривать экспозицию учителя не как фиксированный гиперпараметр, а как обучаемую управляющую переменную во время обучения. Поэтому мы предлагаем адаптивную экспозицию учителя для самодистилляции (ATESD). ATESD моделирует коэффициент раскрытия с помощью легковесного контроллера на основе бета-политики, обусловленного компактной статистикой состояния обучения, и использует одну семплированную экспозицию в течение короткого окна удержания обновлений студента. Чтобы сделать этот контроллер экспозиции обучаемым, мы оптимизируем его с помощью дисконтированного вознаграждения за прогресс обучения, которое оценивает каждое удерживаемое решение по его влиянию на будущее улучшение студента, а не по немедленному изменению функции потерь, решая проблему отложенного назначения кредита, вызванную самодистилляцией на политике. Эксперименты на AIME 24, AIME 25 и HMMT 25 на моделях Qwen3-{1.7B, 4B, 8B} показывают, что ATESD последовательно превосходит конкурентные базовые методы самодистилляции и обучения с подкреплением, улучшая результаты по сравнению с OPSD на +0,95, +2,05 и +2,33 пункта Average@12 соответственно, и утверждает адаптивную экспозицию учителя как эффективное новое направление для самодистилляции рассуждений.
Использование мультимодальных фундаментальных моделей для анализа изображений таблиц представляет собой высокоценное, но сложное применение в потребительских и корпоративных сценариях. Несмотря на важность, современные оценки в основном опираются на таблицы в структурированном тексте или чистые визуализированные изображения, оставляя визуальную сложность табличных изображений в реальных условиях недостаточно исследованной. Такие изображения отличаются разнообразием макетов и областей применения, требующих сложного восприятия структуры и численных рассуждений. Для устранения этого пробела мы представляем WildTableBench — первый эталон для вопросно-ответных задач на естественно встречающихся табличных изображениях из реальных условий. WildTableBench включает 402 табличных изображения с высокой информационной плотностью, собранных с интернет-форумов и веб-сайтов из различных областей, а также 928 вручную аннотированных и проверенных вопросов, охватывающих 17 подтипов в пяти категориях. Мы оцениваем 21 передовую проприетарную и открытую мультимодальную фундаментальную модель на этом эталоне. Только одна модель превышает 50% точности, в то время как все остальные модели показывают результаты от 4,1% до 49,9%. Далее мы проводим диагностический анализ для характеристики сбоев моделей и выявляем устойчивые слабые места в восприятии структуры и рассуждениях. Эти результаты и анализы дают полезные сведения о текущих возможностях моделей и утверждают WildTableBench в качестве ценного диагностического эталона для понимания табличных изображений.
Сверхразрешение текстовых изображений (Text-SR) требует большего, чем визуально правдоподобный синтез деталей: незначительные ошибки в топологии штрихов могут изменить идентичность символов и нарушить читаемость. Существующие методы повышают точность текста за счет более сильных априорных данных на основе распознавания или генерации, однако они по-прежнему сталкиваются с двумя нерешенными проблемами при сильной деградации: текстовые условия, извлеченные из низкокачественных входных данных, сами по себе могут быть ненадежными, а правдоподобное глобальное априорное знание не полностью определяет мелкозернистые границы штрихов. Мы представляем PRISM — одношаговую диффузионную структуру для Text-SR, которая решает эти две проблемы с помощью коррекции априорных данных методом потокового согласования (Flow-Matching Prior Rectification, FMPR) и структурно-ориентированного энкодера остатков с учетом неопределенности (Structure-guided Uncertainty-aware Residual Encoder, SURE). FMPR строит привилегированное априорное знание времени обучения из парных низкокачественных/высококачественных латентных представлений и обучает потоковому согласованию, которое переносит деградированные вложения в это ориентированное на восстановление априорное пространство, обеспечивая более точное и надежное глобальное текстовое руководство. SURE дополнительно предсказывает структурные остатки с учетом неопределенности, чтобы избирательно поглощать надежные локальные граничные свидетельства, подавляя при этом неоднозначные признаки штрихов. Вместе эти компоненты обеспечивают явную коррекцию глобального априорного знания и уточнение локальной структуры в рамках одного прохода восстановления на основе диффузии. Эксперименты как на синтетических, так и на реальных эталонных наборах данных показывают, что PRISM достигает современной производительности с временем вывода на уровне миллисекунд. Наш набор данных и код будут доступны по адресу https://github.com/faithxuz/PRISM.
В данной работе мы исследуем операторы решений уравнений физических полей на геометрических сетках с точки зрения функциональных пространств. Мы показываем, что ортогональность Ходжа принципиальным образом устраняет спектральную интерференцию, отделяя необучаемые топологические степени свободы от обучаемых геометрических динамик, что позволяет получать аддитивную аппроксимацию в подпространствах, сохраняющих структуру. Основываясь на теории Ходжа и расщеплении операторов, мы выводим принципиальное разложение на уровне операторов. Результатом является гибридная эйлерово-лагранжева архитектура с индуктивным смещением на алгебраическом уровне, которое мы называем спектральной двойственностью Ходжа (Hodge Spectral Duality, HSD). В рамках нашего подхода мы используем дискретные дифференциальные формы для захвата компонентов, доминируемых топологией, и ортогональное вспомогательное объемлющее пространство для представления сложной локальной динамики. Наш метод достигает превосходной точности и эффективности на геометрических графах с повышенной точностью воспроизведения физических инвариантов. Наш код доступен по адресу https://github.com/ContinuumCoder/Hodge-Spectral-Duality
Латентное согласование потоков для генерации изображений обычно переносит гауссов шум в латентные представления вариационного автокодировщика вдоль линейных траекторий. Однако обе конечные точки сконцентрированы в тонких сферических оболочках, и евклидова хорда покидает эти оболочки даже при предварительной обработке, выравнивающей их радиусы. Разложив каждый латентный токен на радиальную и угловую компоненты, мы с помощью зондов замены компонентов показываем, что декодированное перцептивное и семантическое содержание переносится преимущественно направлением, а радиус вносит гораздо меньший вклад. Поэтому мы проецируем латентные данные на фиксированный радиус токена, используем радиальную проекцию гауссова шума в качестве сферического априорного распределения, дообучаем декодер при замороженном энкодере и заменяем линейную интерполяцию сферической линейной интерполяцией. Полученные геодезические траектории остаются на сфере на каждом временном шаге, а их целевые скорости по построению являются чисто угловыми. В условиях одинакового обучения данный метод последовательно улучшает класс-условный показатель FID на ImageNet-256 для различных токенизаторов изображений, не изменяет архитектуру диффузионной модели и не требует ни вспомогательного энкодера, ни цели выравнивания представлений.
Оценка изменений изображений на основе инструкций требует вознаграждений, отражающих тонкие человеческие предпочтения, однако современные модели вознаграждения обычно зависят от крупномасштабной аннотации предпочтений и дополнительного обучения модели. Это создает разрыв в эффективности использования данных: люди часто могут вывести целевые критерии оценки всего на нескольких примерах, в то время как модели обычно обучаются на сотнях тысяч сравнений. Мы представляем RewardHarness — саморазвивающуюся агентную систему вознаграждения, которая переопределяет моделирование вознаграждения как эволюцию контекста, а не оптимизацию весов. Вместо обучения на крупномасштабных аннотациях RewardHarness согласуется с человеческими предпочтениями путем итеративной эволюции библиотеки инструментов и навыков, используя всего от 100 демонстраций предпочтений. На основе исходного изображения, кандидатов на редактирование и инструкции по редактированию Оркестратор выбирает наиболее релевантный набор инструментов и навыков из поддерживаемой библиотеки, а замороженный Суб-агент использует их для построения цепочки рассуждений, формирующей суждение о предпочтении. Сравнивая предсказанные суждения с истинными предпочтениями и анализируя успехи и неудачи в процессе рассуждений, Оркестратор автоматически улучшает свою библиотеку инструментов и навыков без дополнительной человеческой аннотации. Используя только 0,05% данных о предпочтениях EditReward, RewardHarness достигает средней точности 47,4% на бенчмарках оценки редактирования изображений, превосходя GPT-5 на 5,3 пункта. При использовании в качестве сигнала вознаграждения для дообучения GRPO модели, настроенные с помощью RL, достигают оценки 3,52 на ImgEdit-Bench. Страница проекта: https://rewardharness.com.
Агенты ИИ всё чаще развертываются в динамических, открытых средах, требующих адаптации к новой информации по мере её поступления. Чтобы эффективно оценить эту способность для реалистичных сценариев использования, мы предлагаем строить обоснованные симуляции, которые воспроизводят реальные события в порядке их возникновения. Мы создаём FutureSim, где агенты прогнозируют мировые события за пределами своей границы знаний, взаимодействуя с хронологическим воспроизведением мира: реальные новостные статьи поступают, а вопросы разрешаются в течение моделируемого периода. Мы оцениваем передовые агенты в их родной среде, тестируя их способность предсказывать мировые события за трёхмесячный период с января по март 2026 года. FutureSim выявляет чёткое разделение их возможностей: точность лучшего агента составляет 25%, а многие имеют показатель мастерства Брайера хуже, чем при отсутствии прогнозов. С помощью тщательных абляций мы показываем, как FutureSim предоставляет реалистичную среду для изучения новых направлений исследований, таких как адаптация на длительном горизонте во время тестирования, поиск, память и рассуждение о неопределённости. В целом, мы надеемся, что наш дизайн бенчмарка проложит путь к измерению прогресса ИИ в области адаптации в открытых условиях, охватывающей длительные временные горизонты в реальном мире.
Генерация трёхмерной сцены на уровне улицы по одному спутниковому снимку является важной, но сложной задачей. Современные методы демонстрируют резкий компромисс: модели геометрической раскраски достигают высокой геометрической точности, но обычно ориентированы на здания и лишены семантического разнообразия. Напротив, модели на основе прокси используют прямые архитектуры «изображение-в-3D» для генерации целостных сцен путём совместного изучения геометрии и текстуры — процесс, который даёт богатое содержание, но грубую и нестабильную геометрию. Мы объясняем эти геометрические неудачи экстремальным разрывом в ракурсах и разреженным, несогласованным контролем, присущим данным перехода от спутника к улице. Мы представляем Sat3DGen для решения этих фундаментальных проблем, который воплощает методологию «геометрия в первую очередь». Эта методология улучшает парадигму прямого предсказания путём интеграции новых геометрических ограничений и стратегии обучения с перспективным видом, явно противодействуя основным источникам геометрических ошибок. Эта геометрически-центрированная стратегия приводит к значительному скачку как в точности 3D, так и в фотореализме. Для валидации мы сначала построили новый эталон, объединив тестовый набор VIGOR-OOD с данными цифровой модели рельефа (DSM) высокого разрешения. На этом эталоне наш метод улучшает среднеквадратичную ошибку геометрии (RMSE) с 6,76 м до 5,20 м. Ключевым образом, этот геометрический скачок также улучшает фотореализм, снижая расстояние Фреше по начальным слоям (FID) с 40 до 19 по сравнению с ведущим методом Sat2Density++, несмотря на отсутствие дополнительных специализированных модулей улучшения качества изображения. Мы демонстрируем универсальность наших высококачественных 3D-активов через разнообразные последующие приложения, включая синтез 3D по семантическим картам, генерацию многокамерного видео, крупномасштабное построение сеток и безконтрольную оценку цифровой модели рельефа (ЦМР) по одному изображению. Код опубликован на https://github.com/qianmingduowan/Sat3DGen.
Омнимодальные языковые модели предназначены для совместного понимания аудио, визуальных входных данных и языка, однако прирост результатов на бенчмарках может быть завышен, если для ответа на запрос достаточно только визуальных свидетельств. Мы исследуем, разделяют ли текущие омнимодальные бенчмарки визуальные сокращения (shortcuts) и подлинную интеграцию аудио-визуально-языковых свидетельств, а также как ведёт себя пост-обучение в условиях визуально дебазированной оценки. Мы проводим аудит девяти омнимодальных бенчмарков с помощью визуального зондирования, удаляем визуально решаемые запросы и сохраняем полные подмножества, когда фильтрация не определена или сделала бы сравнения нестабильными. Это даёт OmniClean — очищенный оценочный набор из 8 551 сохранённых запросов из 16 968 проверенных. На OmniClean мы оцениваем OmniBoost — трёхэтапную процедуру пост-обучения на основе Qwen2.5-Omni-3B: смешанный би-модальный SFT, многомодальный RLVR со смешанными модальностями и SFT на самодистиллированных данных. Сбалансированный би-модальный SFT даёт ограниченные и неравномерные улучшения, RLVR обеспечивает первое широкое улучшение, а самодистилляция меняет профиль бенчмарка. После SFT на самодистиллированных данных модель с 3B параметров достигает производительности, сопоставимой с Qwen3-Omni-30B-A3B-Instruct, а в совокупности — незначительно превосходящей её, без использования более сильного омнимодального учителя. Эти результаты показывают, что прогресс в омнимодальности легче интерпретировать, когда оценка контролирует визуальную утечку, и что малые омнимодальные модели могут выигрывать от поэтапного пост-обучения с самодистиллированным омнимодальным супервизором. Страница проекта: https://cheliu-computation.github.io/omni/
Мы исследуем временную конкатенацию субполитик в марковских процессах принятия решений (MDP) с изменяющимися во времени функциями вознаграждения. Мы представляем обобщенный поиск Дейкстры (GDS) и доказываем, что глобально оптимальные политики достижения целей могут быть восстановлены путем временной композиции промежуточных оптимальных субполитик. Руководствуясь принципом «поиск, выбор, обновление», лежащим в основе GDS, мы предлагаем метод динамического латентного маршрутизации (DLR) — метод посттренировки языковых моделей, который совместно обучает дискретные латентные коды, политики маршрутизации и параметры модели посредством динамического поиска на одном этапе обучения. В условиях тонкой настройки с малым объемом данных DLR достигает уровня, сопоставимого с контролируемой тонкой настройкой или превосходит ее на четырех наборах данных и шести моделях, обеспечивая средний прирост в 6,6 процентных пункта, в то время как предыдущие базовые методы с дискретным латентным пространством consistently уступают SFT. Механистический анализ и целенаправленные абляции кода показывают, что DLR обучает структурированные модели поведения маршрутизации с четкими каузальными ролями.
Мы представляем новую вычислительную платформу для обнаружения и структурирования манипулятивных политических нарративов. Эта задача стала более актуальной в связи с перемещением политических дискуссий в социальные сети. Одной из основных проблем при этом является разграничение манипулятивных политических нарративов и легитимной критики. Некоторые посты могут также переосмысливать реальные события в манипулятивном контексте. Для достижения хороших результатов кластеризации мы предварительно фильтруем манипулятивные посты с помощью детализированного промпта с несколькими примерами (few-shot prompt), который объединяет задокументированные кампанейские нарративы с легитимной критикой для их различения. Этот промпт позволяет модели рассуждений присваивать метки, оставляя для дальнейшей обработки только посты с манипулятивными нарративами. Оставшиеся посты затем преобразуются в эмбеддинги и подвергаются снижению размерности с помощью UMAP, после чего применяется HDBSCAN для выявления нарративных групп. Ключевым преимуществом такого неконтролируемого подхода является его независимость от заранее заданного списка целевых категорий, что позволяет обнаруживать новые нарративные кластеры. Наконец, с помощью модели рассуждений раскрывается нарратив, лежащий в основе каждого кластера. Данный подход, применённый к более чем 1,2 миллионам постов в социальных сетях, позволил эффективно выявить 41 отчётливый манипулятивный нарративный кластер за счёт интеграции фильтрации на основе промптов и неконтролируемой кластеризации.
Выборы представляют собой ключевую веху в непрерывном развитии государства. Для более глубокого понимания политической риторики различных движений — от левых до правых — мы предлагаем модель на основе трансформера, способную проецировать политическую ориентацию текста на непрерывный спектр «лево-право», представленный нормализованным скаляром d в диапазоне от -1 до 1. Такой подход позволяет аналитикам сосредоточиться на конкретных сегментах политического ландшафта, например, на консерваторах, исключая при этом либеральные и ультраправые движения. Эта задача может быть выполнена только с помощью мультиклассовых классификаторов при условии, что желаемая ориентация включена в один из их предопределённых классов. Для определения наиболее подходящей базовой модели среди 13 кандидатов-трансформеров для этой задачи мы построили четыре различных корпуса. Один корпус состоял из аннотированных стенограмм пленарных заседаний немецкого Бундестага, другой был основан на официальном онлайн-инструменте для принятия решений Wahl-O-Mat. Третий корпус включал статьи из 33 газет, каждая из которых идентифицирована по своей политической ориентации, а четвёртый — 535 200 твитов от 597 членов 20-го и 21-го созывов немецкого Бундестага. Для снижения переобучения мы использовали два различных корпуса для обучения и два для тестирования соответственно. Для внутридоменного тестирования наилучший показатель F1 достигнут моделью DeBERTa-large (F1=0,844), а для внедоменного тестирования на данных X (Twitter) — ACC=0,864. Что касается внедоменного тестирования на газетных данных, лучшие результаты показала модель Gemma2-2B (MAE=0,172). Данное исследование демонстрирует, что модели-трансформеры способны распознавать политическое фреймирование в немецких новостях на уровне опросов общественного мнения. Наши результаты показывают, что как архитектура модели, так и наличие предметно-специфических тренировочных данных могут быть столь же влиятельными, как и размер модели, при оценке политической предвзятости. Мы обсуждаем методологические ограничения и намечаем направления для улучшения надёжности измерения предвзятости.
Обучение с подкреплением с проверяемыми наградами (RLVR) достигло больших успехов в разработке больших языковых моделей (LLM) с развертываниями цепочек мыслей для многих задач, таких как математика и программирование. Тем не менее, RLVR сталкивается с проблемами эффективности использования выборок на сложных задачах, где правильные развертывания трудно генерировать. В предыдущих работах предлагалось решать эту проблему с помощью демонстрационно-управляемого RLVR, то есть проводить контролируемую тонкую настройку (SFT), когда RL не справляется; однако SFT часто требует большого объема данных, что может быть дорогостоящим. В данной статье мы предлагаем FEST — алгоритм RLVR, управляемый демонстрациями с малым количеством примеров (Few-Shot). Он достигает убедительных результатов, используя всего 128 демонстраций, случайно отобранных из набора данных SFT. Мы обнаружили, что три компонента имеют решающее значение для успеха: сигнал с учителем, сигнал на политике и затухающие веса на набор данных SFT из нескольких примеров для предотвращения переобучения при многократном обучении. На нескольких эталонных тестах FEST превосходит базовые методы при значительно меньшем объеме данных SFT, даже достигая их производительности при использовании полного набора данных.
Генеративные модели видео всё чаще исследуются в качестве неявных мировых моделей, однако оценка того, создают ли они физически правдоподобную трёхмерную структуру и движение, остаётся сложной задачей. Большинство существующих подходов к оценке видео в значительной степени полагаются на человеческие суждения или обученные классификаторы, что может быть субъективным и слабо диагностическим для геометрических ошибок. Мы представляем PDI-Bench (Индекс искажения перспективы) — количественную структуру для аудита геометрической согласованности в сгенерированных видео. Для заданного видеоклипа мы получаем объектно-ориентированные наблюдения с помощью сегментации и отслеживания точек (например, SAM 2, MegaSaM и CoTracker3), преобразуем их в трёхмерные мировые координаты с помощью монокулярной реконструкции и вычисляем набор остаточных величин проективной геометрии, охватывающих три аспекта нарушений: согласованность масштаба и глубины, согласованность трёхмерного движения и жёсткость трёхмерной структуры. Для поддержки систематической оценки мы создали PDI-Dataset, охватывающий разнообразные сценарии, предназначенные для проверки этих геометрических ограничений. Для современных генераторов видео PDI выявляет характерные для геометрии типы отказов, которые не учитываются распространёнными перцептивными метриками, и предоставляет диагностический сигнал для продвижения к физически обоснованной генерации видео и модели физического мира. Наш код и набор данных доступны по адресу https://pdi-bench.github.io/.
Промышленные системы LLM-агентов часто разделяют планирование и выполнение, однако LLM-планировщики нередко генерируют структурно некорректные или излишне длинные рабочие процессы, что приводит к нестабильным сбоям и излишним затратам на инструменты и API. Мы предлагаем SPIN — оболочку для планирования, которая объединяет валидированное планирование на основе направленных ациклических графов (DAG) с префиксно-ориентированным контролем выполнения. SPIN обеспечивает строгое соблюдение DAG-контракта с помощью _validate_plan_text и восстановительного промптинга, генерируя исполняемые планы до их выполнения, а затем инкрементально оценивает DAG-префиксы, останавливаясь, когда текущий префикс достаточен для ответа на запрос. На наборе AssetOpsBench, включающем 261 сценарий, SPIN сокращает количество выполненных задач с 1061 до 623 и повышает показатель Accomplished с 0,638 до 0,706, одновременно уменьшая количество вызовов инструментов с 11,81 до 6,82 за запуск. На MCP Bench та же оболочка улучшает показатели планирования, привязки и зависимостей как для GPT OSS1, так и для Llama 4 Maverick.
Архитектуры смеси экспертов (MoE) повышают эффективность больших языковых моделей, активируя только подмножество экспертов для каждого токена. Однако стандартная MoE использует фиксированную стратегию маршрутизации Top-K, что приводит к избыточным вычислениям и неоптимальной задержке инференса. Существующие методы ускорения либо требуют дорогостоящего переобучения с изменением архитектуры, либо страдают от значительного падения производительности при высокой разреженности из-за несоответствия между обучением и инференсом. Для устранения этих ограничений мы предлагаем BEAM (Binary Expert Activation Masking) — новый метод, который обучает адаптивное к токенам выделение экспертов с помощью обучаемых бинарных масок. Используя оценщик прямого прохода (straight-through estimator) и вспомогательную функцию потерь регуляризации, BEAM обеспечивает динамическую разреженность экспертов в ходе сквозного обучения, сохраняя при этом возможности модели. Мы также реализовали эффективное пользовательское ядро CUDA для BEAM, обеспечивающее бесшовную интеграцию с фреймворком инференса vLLM. Эксперименты показывают, что BEAM сохраняет более 98% производительности исходной модели, сокращая при этом FLOPs в слоях MoE до 85%, что позволяет достичь до 2,5-кратного ускорения декодирования и в 1,4 раза более высокой пропускной способности, демонстрируя свою эффективность как практическое решение типа «plug-and-play» для эффективного инференса MoE.
По мере перехода AI-агентов от чат-интерфейсов к системам, работающим с приватными данными, вызывающим инструменты и выполняющим многошаговые рабочие процессы, защитные барьеры становятся последней линией обороны от конкретных развертываемых угроз. В таких условиях сбои защитных барьеров перестают быть просто ошибками качества ответов: они могут приводить к утечке секретов, санкционированию небезопасных действий или блокировке легитимной работы. Наиболее сложные сбои часто носят контекстуальный характер: приемлемость действия зависит от местных норм конфиденциальности, организационных политик и ожиданий пользователей, которые сопротивляются предварительной спецификации перед развертыванием. Это создает практический разрыв: защитные барьеры должны адаптироваться к собственной операционной среде, однако обратная связь при развертывании обычно ограничена редкими, зашумленными сообщениями о сбоях от пользователей, а повторная тонкая настройка часто непрактична. Для устранения этого разрыва мы предлагаем LiSA (Lifelong Safety Adaptation, пожизненная адаптация безопасности) — консервативную структуру индукции политик, которая улучшает фиксированный базовый защитный барьер с помощью структурированной памяти. LiSA преобразует случайные сбои в многократно используемые абстракции политик, так что редкие отчеты могут обобщаться за пределы отдельных случаев; добавляет правила локального учета конфликтов для предотвращения чрезмерного обобщения в контекстах со смешанными метками; применяет эвиденциальное пороговое управление достоверностью через нижнюю границу апостериорной вероятности, чтобы повторное использование памяти масштабировалось с накопленными свидетельствами, а не только с эмпирической точностью. На наборах данных PrivacyLens+, ConFaide+ и AgentHarm LiSA стабильно превосходит сильные базовые методы, основанные на памяти, в условиях редкой обратной связи; остается устойчивой к зашумленной пользовательской обратной связи даже при 20% уровне переворачивания меток; и сдвигает фронт компромисса между задержкой и производительностью за пределы масштабирования базовой модели. В конечном итоге LiSA предлагает практический путь защиты AI-агентов от непредсказуемого длинного хвоста реальных граничных рисков.
Несмотря на стремительный прогресс, современные модели text-to-image (T2I) по-прежнему в основном опираются на парадигму одношаговой генерации, которая плохо справляется со сложной семантикой и сталкивается с убывающей отдачей при масштабировании параметров. Хотя недавние многошаговые подходы на основе рассуждений демонстрируют многообещающие результаты, они сдерживаются необоснованными галлюцинациями планирования без верификации, монолитной постфактум-рефлексией, нестабильностями оптимизации в условиях длинного контекста и недопустимой задержкой инференса. Для преодоления этих узких мест мы предлагаем фреймворк замкнутого цикла визуальных рассуждений (CLVR) — комплексную систему, глубоко связывающую визуально-языковое логическое планирование с диффузионной генерацией на уровне пикселей. CLVR вводит автоматический движок данных с покадровой визуальной верификацией для синтеза надежных траекторий рассуждений и предлагает обучение с подкреплением на основе прокси-промптов (PPRL), которое решает проблемы нестабильности оптимизации в условиях длинного контекста путем дистилляции перемежающихся мультимодальных историй в явные сигналы вознаграждения для точной причинной атрибуции. Кроме того, для смягчения серьезного узкого места задержки, вызванного итеративным шумоподавлением, мы предлагаем слияние весов в Δ-пространстве (DSWM) — теоретически обоснованный метод, объединяющий веса выравнивания с готовыми дистилляционными приорами, что снижает стоимость одного шага инференса до всего 4 NFE без необходимости дорогостоящей редистилляции. Обширные эксперименты показывают, что CLVR превосходит существующие открытые базовые решения по нескольким бенчмаркам и приближается к производительности проприетарных коммерческих моделей, открывая общие возможности масштабирования во время тестирования в сложной визуальной генерации.
Разговорные мошенничества, такие как романтические и инвестиционные аферы, становятся крупной формой онлайн-мошенничества. В отличие от одноразовых приманок, как фальшивые лотереи или сообщения о неоплаченных дорожных сборах, они разворачиваются в ходе многократных диалогов, в которых мошенники постепенно манипулируют жертвами, используя развивающиеся психологические приемы. Однако существующие исследования в основном сосредоточены на статическом обнаружении мошенничества или синтетических схемах, оставляя открытым вопрос, могут ли языковые модели понимать, как реальные мошенничества развиваются со временем. Мы представляем PreScam — эталон для моделирования развития мошенничества на основе ранних разговоров. Созданный на основе сообщений пользователей о мошенничестве, PreScam фильтрует и структурирует 177 989 необработанных отчетов в 11 573 экземпляра разговорных мошенничеств, охватывающих 20 категорий. Каждый экземпляр иерархически структурирован в соответствии с жизненным циклом мошенничества, определяемым предложенной цепочкой убийств мошенничества, и дополнительно аннотирован на уровне реплик с указанием психологических действий мошенника и ответов жертвы. Мы оцениваем модели на двух задачах: прогнозирование завершения в реальном времени, которое оценивает, приближается ли разговор к стадии завершения, и прогнозирование действий мошенника, которое предсказывает последующие действия мошенника. Результаты показывают явный разрыв между поверхностной беглостью и моделированием развития: обученные с учителем кодировщики значительно превосходят zero-shot LLM в прогнозировании завершения в реальном времени, в то время как прогнозирование следующего действия остается лишь умеренно успешным даже для сильных LLM. В совокупности эти результаты показывают, что текущие модели могут улавливать некоторые сигналы, связанные с мошенничеством, но все еще испытывают трудности с отслеживанием того, как нарастает риск и как происходит манипуляция на протяжении реплик.
Прогнозирование временных рядов — это не просто численная экстраполяция, а зачастую требует рассуждений на основе неструктурированных контекстуальных данных, таких как новости или события. Специализированные фундаментальные модели временных рядов (TSFM), превосходно прогнозируя на основе числовых паттернов, остаются нечувствительными к реальным текстовым сигналам. С другой стороны, хотя большие языковые модели (LLM) начинают использоваться как прогнозисты в режиме zero-shot, их производительность остается неравномерной в разных предметных областях и при контекстуальной привязке. Для преодоления этого разрыва мы представляем Nexus — многогаентную систему прогнозирования, которая разбивает предсказание на специализированные этапы: выделение макроуровневых и микроуровневых временных флуктуаций, интеграцию контекстуальной информации при её наличии и последующий синтез окончательного прогноза. Такое разложение позволяет Nexus адаптироваться как к сезонным сигналам, так и к волатильной, событийно-ориентированной информации, не полагаясь на внешние статистические якоря или монолитные промпты. Мы показываем, что LLM текущего поколения обладают значительно более сильной врожденной способностью к прогнозированию, чем считалось ранее, причем это критически зависит от организации численных и контекстуальных рассуждений. При оценке на данных, строго следующих за датой отсечки знаний LLM, охватывающих метрики недвижимости Zillow и волатильные акции фондового рынка, Nexus последовательно достигает или превосходит результаты современных TSFM и сильных базовых LLM. Помимо численной точности, Nexus генерирует высококачественные цепочки рассуждений, которые явно показывают фундаментальные движущие силы каждого прогноза. Наши результаты устанавливают, что прогнозирование в реальном мире — это агентная задача рассуждения, выходящая далеко за рамки только моделирования последовательностей.
Мы представляем CurveBench — эталон для иерархических топологических рассуждений на основе визуального ввода. CurveBench содержит 756 изображений попарно непересекающихся кривых Жордана в конфигурациях: простых, полигональных, вдохновлённых топографическими картами, лабиринтообразных и с плотным подсчётом. Каждое изображение снабжено корневым деревом, кодирующим отношения вложенности между плоскими областями. Задача формулируется как структурированное предсказание: по изображению модель должна восстановить полное корневое дерево вложенности, индуцированное кривыми. Несмотря на визуальную простоту задачи, наилучшая из оценённых моделей, Gemini 3.1 Pro, достигает лишь 71,1% точности генерации дерева на CurveBench-Easy и 19,1% на CurveBench-Hard. Мы также демонстрируем полезность эталона посредством тонкой настройки в стиле RLVR визуально-языковых моделей с открытыми весами. Наша обученная модель Qwen3-VL-8B улучшает показатель точности генерации дерева с 2,8% до 33,3% на CurveBench-Easy по сравнению с Qwen-3-VL-8B-Thinking, превосходя GPT-5.4 и Claude Opus 4.5 в рамках нашего протокола оценки. Оставшийся разрыв, особенно на CurveBench-Hard, показывает, что точные топологически-осознанные визуальные рассуждения остаются далёкими от решения.
Модели «Видение-Язык-Действие» (VLA) демонстрируют выдающуюся гибкость и способность к обобщению, превосходя классические парадигмы управления. Однако большинство современных VLA обучены в парадигме однофреймового наблюдения, что делает их структурно слепыми к временной динамике. В результате эти модели значительно деградируют в нестационарных сценариях, даже если они обучены или дообучены на динамических наборах данных. Существующие подходы либо требуют дорогостоящего переобучения, либо страдают от задержек и плохой временной согласованности между чанками действий. Мы предлагаем коррекцию темпа и траектории (Pace-and-Path Correction) — оператор без обучения, работающий на этапе вывода в замкнутой форме, который оборачивает любую VLA с чанкированными действиями. Из одной квадратичной стоимости совместная минимизация даёт единое решение, ортогонально разложимое на два различных канала. Канал темпа сжимает выполнение вдоль запланированного направления, тогда как канал траектории применяет ортогональное пространственное смещение, совместно поглощая воспринимаемую динамику в пределах окна чанка. Мы оцениваем наш подход на комплексном диагностическом бенчмарке MoveBench, разработанном для выделения движения как единственной контролируемой переменной. Эмпирические результаты показывают, что наш фреймворк стабильно превосходит современные обёртки без обучения и методы динамической адаптации, повышая показатели успешности на величину до 28,8% и 25,9% в абсолютном выражении по сравнению с базовыми VLA-моделями в средах с исключительно динамическими и смешанными статическими и динамическими условиями соответственно.