Ежедневно отобранные исследовательские статьи по ИИ с переводами
Многие события в реальном мире не ждут, пока пользователь задаст вопрос. Пожар начинается на мониторе системы безопасности, выражение лица мелькает во время видеозвонка, или товар, который хочет зритель, быстро проходит в прямом эфире. Однако сегодняшние большие модели по своей архитектуре остаются в основном пошаговыми: они отвечают только тогда, когда к ним обращаются, и даже приложения для видеозвонков, которые кажутся интерактивными, по-прежнему работают как системы вопросов и ответов, реагируя только при опросе или запросе. Мы предлагаем иную парадигму: модель, которая присутствует в мире как человек. Она непрерывно наблюдает за происходящим сейчас, самостоятельно решает, говорить или молчать, взаимодействует в реальном времени и делегирует задачу фоновой модели, когда проблема сложна. Чтобы продвинуть модели взаимодействия и их внедрение в различных областях, мы вносим два полностью открытых вклада. Во-первых, мы выпускаем JoyAI-VL-Interaction — модель VL-взаимодействия масштаба 8B, ориентированную в первую очередь на зрение. Модель принимает решение об ответе внутренне, выбирая каждую секунду: молчать, ответить или делегировать фоновой модели. Она превосходно справляется с реактивностью, запускаемой зрением, и осознанием времени. Мы дополняем её переносимой методикой обучения, из которой возникают способности, которым мы никогда не учили модель, например, направлять покупателя через смену экранов приложения или импровизировать лекцию по набору слайдов. Во-вторых, мы выпускаем полную, развертываемую систему, построенную вокруг этой модели. Система передает любое текущее видео на вход модели, делая её по-настоящему присутствующей в мире. Все остальные компоненты являются подключаемыми, включая модули ASR/TTS, память, пользовательский интерфейс визуализации и фоновый мозг, который может подключаться к любому API или агенту. В шести реальных сценариях человеческие рецензенты значительно предпочитают JoyAI-VL-Interaction по сравнению с внутриприложенными помощниками видеозвонков от Doubao и Gemini. Насколько нам известно, это первая открытая модель взаимодействия, управляемая зрением, выпущенная вместе с методикой обучения, данными и полной развертываемой системой.
Данные рассказывают истории, формирующие общество; задача журналиста данных — превращать сырую информацию в истории, которым могут доверять неспециалисты. Создание качественного новостного материала занимает у редакционной команды недели: поиск контекста, проведение статистического анализа, выбор угла подачи и разработка визуализаций. Современные агенты хорошо справляются с отдельными этапами: агенты в области науки о данных замыкают цикл анализа, а агенты дизайна синтезируют красивые веб-сайты. Но может ли агент выступать в роли журналиста данных от начала до конца? Мы представляем Агента журналистики данных (Data2Story) — мультиагентный фреймворк, который координирует специализированные роли в единой виртуальной редакции. Data2Story предлагает два новшества. (i) Утверждения обоснованы доказательствами: Инспектор связывает каждое число, угол подачи и актив с данными, кодом или внешним источником. (ii) Статьи мультимодально генерируются: вместо того чтобы по умолчанию использовать простой текст и статические графики, Data2Story рассуждает о том, что читатели захотят увидеть, а затем применяет мультимодальные инструменты, такие как интерактивные карты для географии и аудио для музыки. Мы оцениваем Data2Story на 18 статьях, каждая из которых сопоставлена с изначально опубликованной экспертной работой, по четырём направлениям: (a) охват углов подачи человеком и агентом; (b) оценка по рубрикам с 53 участниками по пяти измерениям; (c) агенты, имитирующие поведение пользователей, в качестве судей — экономичная замена реальному взаимодействию читателей с интерактивными статьями; и (d) проверяемость, где проверяющий код повторно выполняет утверждения на основе данных и сверяет утверждения с источниками. Data2Story создаёт конкурентоспособные, поддающиеся проверке доказательств мультимедийные истории, с особым преимуществом в прозрачности и возможности аудита. Человеческие статьи сохраняют преимущество в редакторском угле, креативном дизайне и презентации. Мы позиционируем Data2Story как инструмент сотрудничества для журналистов, обеспечивающий более обоснованную с точки зрения доказательств, прозрачную и проверяемую отчётность. Код и демонстрации доступны по адресу https://data2story.github.io.
Общие политики роботов должны следовать инструкциям пользователя, рассуждая о том, как объекты, камеры и действия робота взаимодействуют в трёхмерном физическом мире. Современные модели «видение-язык-действие» (VLA) и видеомодели «мир-действие» (WAM) наследуют сильные семантические или временные априорные знания от крупномасштабных фундаментальных моделей, но по-прежнему работают преимущественно с двумерными кадрами или латентными пространствами, полученными из 2D, оставляя неявной трёхмерную геометрию, необходимую для манипуляций, требующих контакта. Мы предлагаем модель геометрических действий (GAM) — обусловленную языком политику манипуляций, которая напрямую использует предобученную фундаментальную геометрическую модель (GFM) в качестве общей основы для восприятия, временного предсказания и декодирования действий. GAM разделяет GFM на промежуточном слое: мелкие слои служат кодировщиком наблюдений, а вставленный на месте разделения каузальный предсказатель будущего прогнозирует будущие латентные токены, обусловленные языком, проприоцепцией и историей действий. Затем предсказанные будущие токены передаются через оставшиеся блоки GFM для распространения признаков и декодирования, что позволяет единому бэкбону генерировать как будущую геометрию, так и действия. Такая конструкция наделяет GFM обусловленным языком временным моделированием мира при минимальных архитектурных модификациях, сохраняя при этом богатые геометрические априорные знания. В широком наборе экспериментов по манипуляциям в симуляции и на реальных роботах GAM превосходит современные базовые модели масштаба фундаментальных моделей по точности, устойчивости, скорости и лёгкости.
DreamX-World 1.0 представляет собой универсальную интерактивную модель мира для преобразования текста/изображения в видео, предназначенную для управляемой генерации с длительным временным горизонтом. Она поддерживает навигацию камеры, повторное обращение к ранее наблюдаемым областям и управляемые события в фотореалистичных, игровых и стилизованных доменах. Наш механизм обработки данных объединяет рендеринг в Unreal Engine с точной привязкой к камере, записи игрового процесса с богатым набором действий и реальные видеоролики с восстановленной геометрией камеры. Для управления камерой мы вводим E-PRoPE — облегченный вариант проективного позиционного кодирования, который сохраняет проективную геометрию камеры PRoPE, применяя при этом камерно-зависимое внимание к пространственно сокращенным токенам. Мы преобразуем двунаправленный генератор видео в авторегрессионную модель мира с несколькими шагами, используя каузальное форсирование, дистилляцию в стиле DMD и обучение на длинных развертках. Обучение на самостоятельно сгенерированных длинных контекстах подвергает модель воздействию ее собственной сгенерированной истории и уменьшает дрейф стиля и цвета, накапливающийся в авторегрессионных фрагментах. Механизм сохранения сцены с привязкой к памяти извлекает более ранние виды с помощью поиска на основе геометрии камеры, в то время как рециклинг остатков делает путь обусловливания менее чувствительным к несовершенным латентным представлениям памяти. Настройка инструкций событий добавляет компонуемое управление событиями, а выравнивание с помощью обучения с подкреплением восстанавливает управление камерой и визуальное качество после дистилляции. Благодаря выполнению DiT со смешанной точностью, повторному использованию остатков, декодированию VAE с 75%-ным прореживанием и асинхронному конвейерному параллелизму DreamX-World 1.0 достигает скорости до 16 кадров в секунду на восьми графических процессорах RTX 5090. В нашей базовой оценке на 5 секунд DreamX-World 1.0 получает оценку управления камерой 73,75 и общую оценку 84,76, превосходя HY-WorldPlay 1.5 и LingBot-World по общей оценке, которые достигают 80,79 и 80,45 соответственно.
本技术报告介绍了VibeThinker-3B——一个拥有30亿参数的紧凑型稠密模型,旨在探索在严格的小模型规模下,可验证推理能力能推进到何种程度。基于频谱到信号后训练范式,我们通过优化流程系统性提升模型,该流程包括基于课程学习的监督微调、多领域强化学习以及离线自蒸馏。实验评估表明,VibeThinker-3B在高度严苛的可验证任务上达到了前沿水平。具体而言,它在AIME26上获得94.3分(通过声明级测试时缩放提升至97.1),在LiveCodeBench v6上达到80.2的Pass@1,并在近期未见过的LeetCode竞赛中展现出强大的分布外泛化能力,接受率达到96.1%。这使其有效跻身一流推理系统的性能区间,与规模大数个数量级的旗舰模型(如DeepSeek V3.2、GLM-5和Gemini 3 Pro)相匹敌或更优。此外,IFEval上的93.4分证实,这种极端的推理增强并未损害严格的指令可控性。基于我们之前1.5B模型的研究工作,这些发现推动了参数压缩-覆盖假说的提出,该假说将可验证推理视为可压缩为紧凑推理核心的行为,而开放域知识与通用能力则需要对事实、概念和长尾场景进行广泛的参数覆盖。这一视角表明,紧凑模型不仅是部署效率更高的替代品,更是通向参数稠密能力体系下前沿性能的一条互补路径。
Большие языковые модели (БЯМ) для агентов кодирования достигли высоких результатов в задачах программной инженерии, однако исследование репозитория остаётся основным узким местом: поиск релевантного кода потребляет значительный бюджет токенов и засоряет контекст агента посторонними фрагментами. В большинстве агентов одна и та же модель исследует репозиторий и решает задачу, оставляя следы исследовательских чтений и поисков в истории решателя. Мы представляем FastContext — специализированный под-агент исследования, который разделяет этапы исследования репозитория и решения задачи. Вызываемый по требованию, FastContext выполняет параллельные вызовы инструментов и возвращает краткие пути файлов и диапазоны строк в качестве сфокусированного контекста. FastContext работает на основе специализированных моделей исследования с параметрами от 4B до 30B. Мы загружаем их с помощью траекторий эталонной модели и уточняем с помощью вознаграждений, привязанных к задаче, для широкого поиска на первом шаге, многошагового сбора доказательств и точной генерации цитирований. На наборах данных SWE-bench Multilingual, SWE-bench Pro и SWE-QA интеграция FastContext в Mini-SWE-Agent повышает сквозные показатели решения до 5,5% при снижении потребления токенов агентом кодирования до 60% с минимальными накладными расходами. Эти результаты показывают, что исследование репозитория может быть отделено от решения и эффективно обрабатываться специализированными моделями. Код и данные: https://github.com/microsoft/fastcontext
Эффективный и масштабируемый агентный интеллект требует моделей, способных обеспечивать как низкую задержку ответа, так и высокие способности к рассуждению, оставаясь при этом практичными в обучении, развертывании и эксплуатации. В данном отчете мы представляем Ling-2.6 и Ring-2.6 — семейство моделей, разработанных для решения этой задачи в масштабе. Ling-2.6 оптимизирована для мгновенной генерации ответов и высокой производительности на единицу выходного токена, тогда как Ring-2.6 ориентирована на более глубокие рассуждения и более продвинутые агентные сценарии. Вместо обучения с нуля мы модернизируем базовую модель Ling-2.0 путем миграционного пре-тренинга архитектуры и крупномасштабного пост-тренинга. Эта модернизация осуществляется на основе единого совместного проектирования архитектуры модели, целей оптимизации, систем обслуживания и сред обучения агентов, что позволяет добиться улучшений как в производительности модели, так и в эффективности развертывания. На архитектурном уровне мы внедряем гибридный дизайн линейного внимания, объединяющий Lightning Attention и MLA, что повышает эффективность обучения и декодирования в условиях длинного контекста. Для дальнейшего повышения токенной эффективности мы оптимизируем производительность на единицу выходного токена с помощью эволюционной цепочки рассуждений, оптимизации политики языковых единиц, двунаправленного выравнивания предпочтений и дистилляции кратчайших корректных ответов. Для агентных способностей мы предлагаем KPop — фреймворк обучения с подкреплением, предназначенный для обеспечения стабильного обучения Ring-2.6-1T на крупномасштабных данных, основанных на взаимодействии со средой. KPop повышает эффективность обучения за счет асинхронного планирования задач кодирования, поиска, использования инструментов и выполнения рабочих процессов, что обеспечивает масштабируемое обучение на основе сложных взаимодействий агента со средой. Вместе Ling-2.6 и Ring-2.6 предоставляют практический путь к эффективным, масштабируемым и открытым агентным системам. Мы публикуем в открытом доступе все контрольные точки семейства 2.6, чтобы поддержать дальнейшие исследования и разработки в области практического агентного интеллекта.
Маскированные диффузионные языковые модели (MDLM) стали отдельной парадигмой для генерации последовательностей. По мере того как MDLM становятся разнообразными по своим возможностям и охвату знаний, возникает важный вопрос: как объединить их знания. Для этого мы сначала исследуем уникальную динамику декодирования MDLM. Мы обнаруживаем, что успешные генерации демонстрируют стабильную динамику уверенности на позициях, релевантных ответу, в то время как ненадёжные траектории часто можно скорректировать, внедряя многообещающие промежуточные состояния из других моделей. Руководствуясь этим наблюдением, мы предлагаем TIE (Trajectory-based Iterative Ensembling — итеративное ансамблирование на основе траекторий) — фреймворк для слияния знаний, в котором MDLM итеративно определяют надёжные траектории декодирования и передают их между моделями. TIE отслеживает динамику уверенности на релевантных ответу позициях, чтобы определить, какая модель в данный момент следует более надёжной траектории, и выборочно передаёт частично очищенные от шума последовательности между моделями. Поскольку модель на более многообещающей траектории часто меняется на разных шагах шумоподавления, TIE позволяет разным моделям вносить взаимодополняющие сильные стороны на различных этапах генерации. Высокая производительность на разнообразных задачах рассуждения в сочетании с нашим анализом указывает на то, что TIE предлагает практический подход к недостаточно изученной проблеме ансамблирования MDLM.
Обратный рендеринг городских сцен из захваченных видео открывает множество применений, включая создание контента и симуляцию автономного вождения. Методы, основанные на физически корректном рендеринге, следуют законам физики освещения и управляют ими, однако страдают от артефактов при реконструкции и рендеринге. В то время как генеративные модели создают реалистичные видео, они обеспечивают ограниченную согласованность и управляемость. Мы представляем BRDFusion — единую структуру, объединяющую две взаимодополняющие модели для обратного и прямого рендеринга. В частности, BRDFusion восстанавливает явные, согласованные свойства сцены с помощью физического моделирования и уменьшает неоднозначность оптимизации за счет порождающих априорных распределений. При прямом рендеринге физическая модель обеспечивает управляемый рендеринг на основе конфигурации сцены, а генеративная модель подавляет шум и исправляет артефакты. Таким образом, наш метод создает высококачественные видео, обеспечивая при этом точный контроль, превосходя базовые подходы как на реальных, так и на синтетических сценах. Кроме того, BRDFusion поддерживает переосвещение с новых ракурсов, симуляцию ночного освещения, а также вставку и редактирование динамических объектов. Страница проекта: https://shigon255.github.io/brdfusion-page/
Модели зрения-языка (VLM) служат интерфейсами общего назначения для сложных мультимодальных задач. Однако их развертывание по-прежнему сталкивается с тремя пробелами: VLM, как правило, имеют высокую задержку и стоимость при обработке плотных видеокадров и длинных запросов; агентный каркас остается статичным после развертывания; стандартные бенчмарки видео-QA не проверяют, способны ли агенты использовать визуальные свидетельства внутри рабочих пространств с инструментами. Мы представляем VisualClaw — саморазвивающийся мультимодальный агент, построенный на двух принципах. Во-первых, гибридное кодирование снижает стоимость развертывания за счет фильтрации менее информативных потоковых кадров с помощью каскадного затвора и сжатия банка текстовых навыков через горячее/холодное top-k внедрение. Во-вторых, эволюция навыков позволяет агенту учиться на ошибках: извлеченные воспоминания подают эволюционирующему компоненту либо как прямой конкатенированный контекст, либо как направленное свидетельство, что приводит к обновлениям банка навыков, помогающим будущим вопросам. На 4 бенчмарках видео-QA с 2 VLM VisualClaw сокращает стоимость API на один вопрос в среднем на -98% по сравнению с загрузкой полного кадра и на -25,9% по сравнению с офлайн-равномерным базовым потоком из 8 кадров, одновременно повышая точность в большинстве конфигураций, например, среднее +3,85% и пиковое +15,80% на EgoSchema с Gemini 3 Flash. Для устранения указанного пробела мы подготовили VisualClawArena — мультимодальный агентный бенчмарк из 200 сценариев, построенный через строгий пятиэтапный конвейер; модели должны использовать видеосвидетельства, документы, динамические обновления и выполнимые проверки в рабочей области. На VisualClawArena та же структура с бэкендами агентов для работы с компьютером улучшает макроточность на +2,9% для Codex (GPT-5.5) и на +3,2% для Claude Code (Sonnet 4.6) по сравнению с базовыми версиями без эволюции, при снижении стоимости на -9,5% по сравнению с равномерно сэмплированным базовым вариантом. Эти свойства делают VisualClaw естественным выбором для приложений на границе сети, где каскад сокращает 1-часовую потоковую сессию с ~3 600 API-вызовов до всего 5–20 обращений, а самоэволюция превращает его в идеального персонализированного ассистента.
Мы представляем Qwen-RobotWorld — языкообусловленную видеомодель мира для воплощённого интеллекта. Используя естественный язык в качестве унифицированного интерфейса действий, модель предсказывает физически обоснованные будущие визуальные траектории на основе текущих наблюдений в таких задачах, как роботизированная манипуляция, автономное вождение, навигация в помещении и перенос навыков от человека к роботу. Такая единая формулировка открывает три перспективных направления применения: генерация синтетических данных для дополнения обучения политик, масштабируемые виртуальные среды для оценки политик и сигналы планирования на основе естественного языка для последующего управления роботом. Это достигается за счёт трёхкомпонентной архитектуры: а) Двухпоточный MMDiT с кодированием действий MLLM — 60-слойный двухпоточный диффузионный трансформер, связывающий замороженные семантики Qwen2.5-VL с латентными представлениями видео-VAE через послойное совместное внимание; б) Воплощённое мировое знание (EWK) — корпус видеотекстов объёмом 8,6 млн (более 200 млн кадров) с отображением действий и языка для более чем 20 воплощений и 500+ категорий действий; в) Прогрессивная программа обучения «Общий+Эксперт» — двухэтапная стратегия обучения, которая сначала усваивает общие визуальные априорные знания, а затем внедряет воплощённую специализацию в рамках единого языкового интерфейса. Обширные результаты демонстрируют высокую конкурентоспособность: модель занимает 1-е место в целом на EWMBench и DreamGen Bench, превосходя все открытые модели на WorldModelBench и PBench. Дополнительный нулевой анализ (zero-shot) на бенчмарке RoboTwin-IF подтверждает надёжное обобщение и мультиракурсную согласованность.
Многоцелевое обучение (MTL) играет ключевую роль в рекомендательных системах, позволяя осуществлять взаимодополняющее обучение на основе разнообразной обратной связи от пользователей. Хотя современные промышленные практики перешли от ГНС к архитектурам на основе Transformer для усиления моделирования последовательностей и масштабируемости, они по-прежнему разделяют кодирование признаков и многозадачное прогнозирование, рассматривая Transformer как независимый от задачи кодировщик. Такой подход принципиально ограничивает производительность и масштабируемость из-за: (1) создания информационного узкого места при гетерогенных целевых задачах, (2) возникновения градиентной интерференции, приводящей к феномену качелей, и (3) принудительного перехода потока данных, при котором основанное на внимании контекстно-адаптивное обучение представлений преобразуется в статическое прямое прогнозирование задач с несовместимой динамикой чтения-записи информации. Мы предлагаем OneRank — основанный на Transformer единый фреймворк многозадачного ранжирования, который устраняет разделение кодировщика и предиктора и вводит частные для задачи каналы для прямого обучения представлений и обратной оптимизации, обеспечивая специализированное обучение для каждой задачи при одновременном снижении межзадачной интерференции. На прямом проходе OneRank снизу вверх изучает представления, специфичные для задачи, с помощью управляемого задачей отбора информации, контекстуализации с учетом кандидатов и контролируемого межзадачного взаимодействия. На обратном проходе межзадачное открепление градиента изолирует обновления частных для задачи параметров от модулей извлечения общих знаний, предотвращая отрицательный перенос. Кроме того, мы заменяем статические многослойные перцептронные скореры, специфичные для задачи, динамической оценкой на основе сопоставления для контекстно-зависимого персонализированного ранжирования. Интегрируя многозадачный вывод непосредственно в стек Transformer, OneRank создает единую и масштабируемую архитектурную парадигму. Офлайн- и онлайн-эксперименты на крупномасштабных промышленных наборах данных показывают, что OneRank значительно превосходит современные базовые модели, сохраняя при этом вычислительную эффективность.
По мере развертывания LLM-агентов в долгосрочных сеансах накопление контекста приводит к росту затрат на инференс. Существующие подходы используют текстовое сокращение или динамическое вытеснение памяти для минимизации объема токенов; однако их неконтролируемые модификации последовательностей изменяют разметку, вызывая несоответствия префиксов и аннулирование кэша. Это выявляет критический компромисс между разреженностью текста и непрерывностью кэша подсказок. Для решения этой проблемы мы представляем TokenPilot — фреймворк двухуровневого управления контекстом. На глобальном уровне «Компактизация с учетом ввода» выступает в роли организационной рамки, стабилизируя префиксы подсказок и устраняя открытый фоновый шум на входном шлюзе. На локальном уровне «Вытеснение с учетом жизненного цикла» отслеживает текущую остаточную полезность сегментов контекста, применяя консервативный график пакетных циклов для выгрузки сегментов содержимого только после истечения актуальности задачи. Эксперименты на PinchBench и Claw-Eval в изолированном и непрерывном режимах показывают, что TokenPilot снижает затраты на 61% и 56% в изолированном режиме, а также на 61% и 87% в непрерывном режиме, сохраняя конкурентоспособную производительность по сравнению с предыдущими системами. TokenPilot интегрирован в LightMem2 по адресу https://github.com/zjunlp/LightMem2.
Визуальные модели мира (VWM) синтезируют интерактивные, обусловленные действиями развертки на основе одного контекстного изображения. Однако остается открытым вопрос, насколько эти модели устойчивы к состязательным возмущениям. Стандартные состязательные атаки не позволяют оценить эту уязвимость, поскольку у атакующих отсутствуют эталонные будущие видео и они не могут предсказать последующие пользовательские команды. Мы представляем BadWorld — безнаметочный состязательный фреймворк, предназначенный для авторегрессионных VWM, который систематически преодолевает оба ограничения. Во-первых, чтобы обойти необходимость в будущем контроле, мы предлагаем самообучаемую атаку на скорость, которая напрямую нарушает раннюю динамику шумоподавления модели. Во-вторых, чтобы гарантировать обобщение атаки на непредсказуемые действия пользователя, мы формулируем траекторно-адаптивную двухуровневую оптимизацию, которая активно ищет сложные управляющие последовательности для создания нечувствительных к управлению возмущений. При оценке на репрезентативных VWM с непрерывным и дискретным управлением BadWorld выявляет серьезную структурную хрупкость. Визуально неразличимые состязательные изображения надежно вызывают катастрофическую деградацию будущих разверток, приводя к неполному шумоподавлению, структурному коллапсу и несогласованности управления. Эти результаты раскрывают критические риски при развертывании VWM в системах, критичных к безопасности, а также указывают на практический механизм защиты конфиденциальности.
Расширение политики "зрение-язык-действие" (VLA) на новую задачу обычно требует телеуправляемых демонстраций для конкретной задачи и тонкой настройки под каждую задачу, что делает адаптацию затратной как с точки зрения сбора данных, так и вычислительных ресурсов. В данной работе мы показываем, что эти затраты на адаптацию под каждую задачу на стороне целевого воплощения можно заменить поиском (retrieval). Наша политика с дополнением на основе поиска обучается один раз на парных демонстрациях от целевого воплощения (запрос) и более дешевого воплощения (пул, например, видео с рукой человека), после чего замораживается. Новые задачи добавляются при развертывании путем добавления демонстраций со стороны пула в поисковый пул. Замороженная политика учитывает извлеченные траектории на каждом шаге управления, поэтому новые задачи усваиваются за счет индексации данных, а не обновления параметров. Тонкая настройка требуется только для работы с новым, невиданным ранее воплощением, а не для каждой новой задачи. Мы показываем, что поиск улучшает политики независимо от конкретной основы, включая стандартные VLA-политики, но его эффект особенно заметен в Cosmos Policy — модели мира-действия (WAM), основанной на генерации видео. В этой конфигурации поиск обеспечивает грубое продвижение по задаче, в то время как целевая функция WAM для прогнозирования будущих изображений предоставляет дополнительный сигнал визуальной согласованности, который усиливает действия, обусловленные поиском. На задаче PushT мы изучаем, как поиск обеспечивает повторно используемую априорную информацию о движениях высокого уровня для обобщения между воплощениями на неизвестные целевые углы, в то время как на RoboTwin 2.0 наш метод превосходит базовые подходы к обобщению между воплощениями на неизвестных задачах, и мы также демонстрируем метод на реальном роботе.
В данной статье мы представляем SP^3 — новый алгоритм типа Plug-and-Play, который ускоряет восстановление изображений по принципу максимума апостериорной вероятности, заменяя шумоподавители сферическими энкодерами (СЭ) в качестве генеративных априорных распределений. SP^3 аппроксимирует неразрешимый шаг проксимального априорного распределения, используя жёстко структурированное латентное пространство СЭ в качестве надёжной проекции на многообразие естественных изображений. Чередование этой проекции с этапом согласования данных в замкнутой форме, реализуемым через полуквадратичное расщепление, обеспечивает стабильную сходимость без необходимости вычисления градиента во время логического вывода. Такая уникальная формулировка открывает возможности восстановления «в любое время», позволяя получать чёткие правдоподобные изображения уже с первой итерации. Оценки на различных задачах восстановления изображений показывают, что SP^3 достигает перцепционного качества, сопоставимого с современными методами диффузии и потоков с zero-shot обучением, при этом работая в 3–630 раз быстрее.
Генерация длинных видеоформатов требует, чтобы повторяющиеся субъекты оставались согласованными при различных сценах, ракурсах, движениях и переходах между сценами. Существующие методы временного разложения повышают масштабируемость, генерируя видео сцена за сценой. Однако они в основном сосредоточены на оптимизации правдоподобных продолжений следующей сцены без проверки, сохраняет ли историческая память свидетельства, критически важные для идентичности субъекта. В результате по мере генерации повторяющиеся субъекты могут размываться, перезаписываться или забываться. В данной статье мы предлагаем Memento — фреймворк, управляемый реконструкцией субъекта, который рассматривает сохранение субъекта как явную проблему установления идентичности, исходя из предпосылки, что банк памяти, достоверно сохраняющий субъект, должен поддерживать реконструкцию этого субъекта только на основе памяти. В частности, Memento совместно обучает авторегрессионную генерацию следующей сцены с реконструкцией субъекта на основе памяти, восстанавливая целевые внешние проявления с использованием исторической памяти и глобальных описаний сюжета. Чтобы разделить долгосрочные свидетельства субъекта и краткосрочные сигналы, Memento вводит механизм двойного запроса памяти, где один запрос извлекает память, относящуюся к идентичности, а другой выбирает ключевые кадры краткого контекста для связного продолжения. Кроме того, конвейер кинематографических данных с учетом субъекта обеспечивает точное контролирующее воздействие при реконструкции посредством согласованных описаний субъекта без местоимений. Эксперименты показывают, что Memento достигает современного уровня производительности в долгосрочной согласованности субъекта, межсценарной когерентности и визуальном качестве.
Мы представляем Massive Video Embedding Benchmark (MVEB) — эталонный набор из 23 задач для оценки видеовложений, охватывающий классификацию, классификацию с нулевым обучением, кластеризацию, попарную классификацию, поиск и вопросы-ответы по видеоматериалам. Мы оценили 33 модели и обнаружили, что ни одна из них не является доминирующей: вложения на основе MLLM лидируют в классификации, кластеризации, попарной классификации и вопросах-ответах; мультимодальное связывание превосходит в поиске и классификации с нулевым обучением; генеративные MLLM без контрастивной адаптации терпят крах в кросс-модальных задачах. Сравнение пар «только видео» и «аудио + видео» показывает, что вклад аудио зависит от происхождения аннотаций набора данных: аудио помогает, когда метки создавались на основе обеих модальностей, и вредит, когда они создавались только на основе визуальной информации — разрыв в шесть процентных пунктов, последовательно проявляющийся во всех семействах моделей. MVEB выведен из MVEB+, пула из 184 задач, и предназначен для сохранения разнообразия задач при снижении затрат на оценку. Он интегрирован в экосистему MTEB для унифицированной оценки текста, изображений, аудио и видео. Мы публикуем MVEB и все 184 задачи вместе с кодом и лидербордом на https://github.com/embeddings-benchmark/mteb.
Мы представляем Nemotron 3 Ultra — языковую модель типа "смесь экспертов" (Mixture-of-Experts) с гибридной архитектурой Mamba-Attention, содержащую 550 миллиардов параметров, из которых 55 миллиардов активны. Мы предварительно обучили Nemotron 3 Ultra на 20 триллионах текстовых токенов, затем расширили длину контекста до 1 миллиона токенов и выполнили пост-обучение с использованием контролируемой точной настройки (SFT), обучения с подкреплением (RL) и многомодельной политической дистилляции (MOPD). Nemotron 3 Ultra — наша самая мощная модель на сегодняшний день, в которой применяются несколько ключевых технологий: LatentMoE, многотокенное предсказание (MTP), предварительное обучение с NVFP4, многокомпонентное RLVR, MOPD и управление вычислительным бюджетом рассуждений. Nemotron 3 Ultra обеспечивает до ~6 раз более высокую пропускную способность вывода по сравнению с современными публично доступными LLM при сопоставимой точности. Передовая точность, высокая пропускная способность вывода и длина контекста в 1 миллион токенов делают Nemotron 3 Ultra идеальной моделью для длительных автономных агентных задач. Мы открываем исходный код базовых, пост-обученных и квантованных контрольных точек, а также обучающие данные и рецептуру на HuggingFace.
Продвинутые агенты всё чаще демонстрируют потенциал для работы в качестве автономных инженеров, что создаёт растущий спрос на оценочные бенчмарки, отражающие сложность реальной разработки. Такие среды обычно включают как сложный код, так и крупномасштабные данные (например, файловую систему). Однако существующие бенчмарки, как правило, оценивают кодоцентричные или датацентричные способности изолированно, оставляя явный разрыв с реальными сценариями разработки. В данной статье мы устраняем этот пробел, представляя CODA-BENCH — первый бенчмарк, который совместно оценивает интеллектуальные способности в работе с кодом и данными в среде с интенсивным использованием данных. Мы создали изолированную среду Linux, интенсивно использующую данные на основе экосистемы Kaggle (содержащую сотни наборов данных), где агенты должны активно исследовать сложные файловые иерархии для выявления релевантных ресурсов и генерировать код для задач аналитики, основанной на данных. CODA-BENCH включает 1009 задач, охватывающих 31 сообщество, при этом каждая среда задачи содержит в среднем 980 файлов, что имитирует реалистичный масштаб данных и шум. Оценки продвинутых агентов показывают, что даже наиболее эффективные системы с трудом интегрируют обнаружение данных с выполнением кода, достигая лишь 61,1% успешности. Эти результаты подчёркивают существенный разрыв в текущих агентных возможностях для задач с интенсивным использованием данных и указывают на перспективные направления будущих исследований.
Веб-агенты действуют через длинные последовательности взаимодействий, однако существующие бенчмарки оценивают только конечный успех, отбрасывая всю информацию о процессе и предоставляя мало ориентиров для улучшения. В данной работе мы проводим анализ на уровне процессов для веб-агентов. Мы представляем WebStep — бенчмарк из 1800 экземпляров задач с контролируемой сложностью и автоматическим отслеживанием семантических состояний. Каждый сайт предоставляет детерминированную семантическую MDP наряду с графическим интерфейсом: агент действует в интерфейсе, а среда в фоновом режиме записывает высокоуровневые состояния и переходы, что позволяет проводить детальный анализ без ручной аннотации. На основе семантической траектории мы сначала показываем, что процессные метрики выявляют различия, невидимые при оценке результатов: три агента с показателями успеха в диапазоне 31–33% расходятся в охвате исследования и точности выполнения. Затем декомпозиция по навыкам характеризует природу этих различий, обнажая противоположные ранжирования по навыкам, скрытые внутри одного и того же сайта: например, на Housing OpenAI CUA превосходит Qwen3.5 на 23,7% по действиям фиксации, но уступает ему на 15,6% по фильтрации, указывая на конкретный навык, требующий улучшения даже в рамках одной предметной области. Бифуркационный анализ дополнительно локализует решающую ошибку, которая приводит к потере задачи, и показывает, что эта ошибка специфична для агента, а не является общей. Наконец, эти различия усиливаются по мере усложнения задач: показатель успеха схож на простых задачах, но резко расходится, когда исследование становится более требовательным. Наш анализ на уровне процессов открывает новое направление в оценке веб-агентов, предоставляя детальные и практические выводы о том, где и как следует улучшать каждого агента.
По мере развития больших языковых моделей (LLM) обучение с подкреплением (RL) после предварительного обучения всё чаще полагается на многомерные вознаграждения для развития комплексных способностей. Этот сдвиг требует новых алгоритмов, способных одновременно оптимизировать разнообразные и потенциально конкурирующие цели. Для решения этой задачи существующие методы, такие как Group reward-Decoupled Policy Optimization (GDPO), разлагают общую оценку на независимые группы вознаграждений, а затем вычисляют потери RL отдельно для каждой группы. Однако эта стратегия всё ещё сталкивается с конфликтами множественных вознаграждений: один прогон может давать положительные преимущества по одним измерениям вознаграждения, но отрицательные по другим, что приводит к взаимному подавлению противоположных сигналов при агрегации, дополнительно снижая эффективность обучения RL. Вдохновлённые методом Dynamic sAmpling Policy Optimization (DAPO), который повышает эффективность обучения RL за счёт фильтрации неэффективных прогонов с почти нулевыми преимуществами, мы предлагаем Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO). В частности, GD^2PO использует механизм фильтрации, учитывающий конфликты, для маскировки прогонов, страдающих от серьёзных расхождений между вознаграждениями. Предотвращая взаимное подавление конфликтующих сигналов, эта стратегия маскировки сохраняет и усиливает величину эффективных преимуществ RL, что значительно ускоряет скорость обучения. Кроме того, мы вводим перевзвешивание на уровне запросов для динамической корректировки интенсивности обновления каждого запроса на основе общего консенсуса по вознаграждениям. Эксперименты на различных многомерных сценариях вознаграждения, включая вызов инструментов и согласование с человеческими предпочтениями, показывают, что GD^2PO последовательно и значительно превосходит существующие базовые методы. Код доступен по адресу https://github.com/Qwen-Applications/GD2PO.
Телефонные агенты всё чаще должны выполнять реальные мобильные рабочие процессы, а не просто предсказывать следующее действие на экране. Однако значительная часть современной литературы по мобильным агентам по-прежнему оценивает их прежде всего как контроллеры графического интерфейса (GUI), которые наблюдают за экраном, генерируют касания и свайпы, а их успех определяется целевым состоянием приложения. Реальные задачи использования телефона шире: они требуют принятия решений о том, когда использовать графические интерфейсы приложений, команды на стороне устройства или структурированные инструменты, при этом оставляя доказательства того, что предполагаемый побочный эффект действительно произошёл. Мы представляем PhoneHarness — смешанный бенчмарк действий и исполнительную среду для изучения агентов, использующих телефон, на верифицируемых мобильных рабочих процессах. PhoneHarness запускает цикл агента на стороне устройства, включающий действия через GUI, CLI и инструменты хост-машины, сочетая детерминированную маршрутизацию действий с ограниченным делегированием GUI и аудируемыми трассами выполнения. Его бенчмарк, PhoneHarness Bench, оценивает, выполняют ли агенты задачи с наблюдаемыми побочными эффектами, а не только то, генерируют ли они правдоподобные окончательные ответы. На размеченной оценочной выборке PhoneHarness достигает процента успешных прохождений в 75,0%, превосходя наиболее сильные настройки без PhoneHarness на 12,9 процентных пункта. Таким образом, PhoneHarness и PhoneHarness Bench выполняют различные, но взаимозависимые роли: среда делает смешанные телефонные рабочие процессы исполнимыми, тогда как бенчмарк измеряет, способны ли агенты использовать эту среду надёжно и безопасно. Наши результаты показывают, что надёжная автоматизация телефона зависит от маршрутизации по поверхностям действий и верифицируемого выполнения, а не только от визуального управления GUI.
Унифицированные мультимодальные модели (UMM) стали ключевым направлением в области мультимодального интеллекта общего назначения, объединяя понимание и генерацию в единой структуре. Однако существующие UMM сталкиваются с серьезными проблемами: (1) внутренние конфликты обучения между задачами визуального понимания и генерации, приводящие к неоптимальному моделированию в обеих задачах; (2) различные пространства визуального представления для понимания и генерации, препятствующие масштабируемости; (3) чрезмерная зависимость от данных, специфичных для задачи, пренебрегающая двойственностью понимания и генерации текст-изображение. Для решения этих проблем мы предлагаем UniDDT, который использует шумовой кодировщик ViT (Noisy ViT) совместно с LLM для унификации семантического кодирования в задачах визуальной генерации и понимания, применяя отдельный декодер диффузии для разделения декодирования диффузии и декодирования текста. Благодаря этому кодировщику Noisy ViT, UniDDT способен использовать латентное пространство в качестве унифицированного визуального представления, обеспечивая бесшовную совместимость между задачами понимания и генерации. Таким образом, масштабируемость в задачах генерации и семантическая выразительность в задачах понимания могут быть сбалансированы. Кроме того, мы строим двойные структуры данных из одних и тех же пар изображение-текст, способствуя взаимозависимости между данными для генерации и понимания, чтобы использовать их внутреннюю двойственность. Обширные эксперименты демонстрируют, что UniDDT достигает эффективного объединения мультимодального понимания и генерации с улучшенной семантической согласованностью и масштабируемостью. Для задач визуальной генерации наш UniDDT достигает 0,87 баллов по GenEval и 86,9 общего балла по DPG. Для задач мультимодального понимания наш UniDDT достигает 1699,5 баллов на бенчмарке MME и 76,5 общего балла на SEEDbench.
Обслуживание многораундовых LLM накапливает историю диалогов, кэш ключ-значение (KV) которой растет с каждым раундом и каждым пользователем, быстро превышая размер самих весов модели и превращая память – а не вычисления – в ограничивающий фактор пропускной способности. Неравномерное сжатие KV, которое выделяет гетерогенные бюджеты для голов внимания, сохраняет точность гораздо лучше, чем равномерные схемы, но остается непрактичным: современные стеки обслуживания предполагают одинаковую длину KV для всех голов, поэтому гетерогенность приводит к фрагментации освобожденной памяти в виде страниц, тратит до 25% времени префилла на возврат разбросанных страниц и искажает рабочие нагрузки GPU, что увеличивает задержку декодирования до 1,7 раза или сжигает 15–20% каждого шага декодирования на перепланирование. Мы наблюдаем, что эту гетерогенность не нужно обнаруживать во время выполнения: удержание по головам следует двухуровневой структурной регулярности – инвариантному относительно входных данных ранжированию голов с узко ограниченными соотношениями на голову – которое может быть откалибровано офлайн на основе всего 50 образцов. Опираясь на это понимание, мы представляем Tangram – фреймворк обслуживания, который статически решает то, что предыдущие системы обрабатывали динамически: «Резервирование бюджета» (Budget Reservation) фиксирует размер каждой головы после сжатия во время планирования, устраняя необходимость возврата страниц; «Рваная страничная организация» (Ragged Paging) группирует головы с похожими бюджетами в независимые таблицы страниц, превращая фрагментацию в освобождаемую память; а «Предварительная балансировка нагрузки» (Ahead-of-Time Load Balancing) предварительно вычисляет сбалансированные разделы GPU без затрат на планирование во время выполнения. Реализованный на основе vLLM, Tangram служит готовой основой для существующих методов неравномерного сжатия, соответствуя их точности, одновременно улучшая сквозную пропускную способность до 2,6 раз по сравнению с базовым полным KV. Наша реализация общедоступна по адресу https://github.com/aiha-lab/TANGRAM.
Повторная визуализация существующего видео с новой точки обзора камеры требует, чтобы выходной результат следовал заданной траектории камеры, сохраняя при этом внешний вид и динамику исходной сцены в каждом кадре. Существующие методы опираются на покадровые вложения позы, зашумленные рендеринги облаков точек или неявные изученные соответствия, ни один из которых не обеспечивает явной, непрерывной во времени связи между пикселями источника и цели. Мы предлагаем Track2View, который подает на вход диффузионного трансформера видео парные трехмерные треки точек: разреженные траектории точек сцены, спроецированные как в исходное, так и в целевое изображения камеры. Эти треки обеспечивают явные пространственно-временные соответствия, которые по построению непрерывны во времени, кодируя, какой контент должен появиться где и когда. В основе Track2View лежит кондиционер треков с двойным обзором, который переносит визуальный контекст из исходного вида в целевой с помощью безпараметрических геометрических операций и изученной временной агрегации, обеспечивая обобщение на произвольные траектории камеры без запоминания конкретных движений. Мы также представляем конвейер подготовки данных, который извлекает взаимно однозначные соответствия треков путем запуска трехмерного трекера точек на временно конкатенированных парах многокамерных видов. На эталонном наборе из 400 видео, охватывающих статические и динамические сцены, Track2View достигает современных результатов по качеству изображения, синхронизации видов и точности камеры, уменьшая ошибку поворота на 30–65% и ошибку переноса на 61–72% по сравнению с ведущими базовыми методами. Страница проекта доступна по следующему URL: https://qjizhi.github.io/track2view
При дообучении предварительно обученных VLA-политик с помощью онлайн-обучения с подкреплением каждый эпизод развертывания даёт лишь один бинарный исход (успех или неудача), тогда как обновление актора требует супервизии на каждом переходе. Существующие подходы обычно сводят этот разреженный исход к одному скалярному сигналу вознаграждения или преимущества, что объединяет различные формы обратной связи на уровне переходов и обеспечивает ограниченное руководство, как только базовый успех задачи становится достижимым. Во-первых, один скалярный сигнал объединяет две цели — жизнеспособность и эффективность; как только базовый успех достигнут, бинарная метка не даёт градиента для различения эффективных завершений и медленных. Во-вторых, развертывания в реальном мире смешивают автономные сегменты и сегменты с вмешательством; наивное присвоение исходов эпизода этим границам приводит к неправильному назначению кредита. Для решения этих проблем мы предлагаем иерархическую клонирование поведения с взвешиванием по преимуществу (Hierarchical Advantage-Weighted Behavior Cloning, HABC), которое обучает отдельные головки критика для этих двух целей на различных подмножествах данных и объединяет их выходы с адаптивным к состоянию балансом. Адаптивный к состоянию затвор \( g_t \) объединяет их однокомпонентные преимущества, отдавая приоритет жизнеспособности, когда успех неопределён, и переключаясь на эффективность только при высокой жизнеспособности, и преобразует результат в веса для каждого перехода в функции потерь актора. Назначение кредита с учётом вмешательств дополнительно ограничивает метки исхода только теми сегментами, которые были выполнены текущей политикой, предотвращая утечку супервизии через границы вмешательств. В экспериментах на реальных роботах на трёх задачах двуручной манипуляции, требующих контакта, HABC повышает успех с базовых показателей обучения с учителем (SFT) в 36%, 44% и 12% до 92%, 88% и 38% соответственно.
Прогресс в области искусственного интеллекта в значительной степени был обусловлен методами, которые предполагают меньшее. По мере увеличения вычислительных мощностей и объемов данных подходы с более слабыми индуктивными смещениями, как правило, превосходят те, что основаны на более сильных предположениях. Это особенно характерно для области визуального представления обучения, где подходы прошли путь от доминирования обучения с учителем к слабо контролируемому обучению и, наконец, к ныне широко распространенному успеху самообучения без человеческих меток. Тем не менее, даже современные подходы к самообучению по-прежнему зависят от сильных индуктивных смещений, таких как аугментации, маскирование или кадрирование. Если эта тенденция сохранится, даже эти оставшиеся смещения станут узким местом при масштабировании — и наши эксперименты подтверждают это: оптимальная сила индуктивных смещений уменьшается по мере роста объема данных. Это мотивирует поиск подходов, которые опираются на меньшее количество предположений. С этой целью мы представляем метод временной разницы в зрении (TDV) — новую парадигму самообучения на основе видео, которая избегает существующих индуктивных смещений, полагаясь вместо этого на каузальное предположение о том, что прошлое служит причиной будущего. TDV работает путем совместного обучения кодировщика изображений и кодировщика движения таким образом, чтобы представление текущего кадра плюс закодированное движение равнялось представлению следующего кадра. Несмотря на отсутствие использования каких-либо сильных индуктивных смещений, TDV достигает уровня современных методик на задачах плотной пространственной обработки, закладывая основу для обучения представлений без сильных предположений.
Разреженные автоэнкодеры (SAE) широко используются для интерпретации представлений нейронных сетей, однако их полезность зависит от того, воспроизводятся ли изученные признаки при повторных запусках обучения. Мы исследуем этот вопрос через стабильность признаков: для каждого признака SAE мы оцениваем вероятность того, что аналогичный признак появится в независимо обученном SAE. Это дает масштабируемый сигнал для каждого признака, разделяющий стабильные и нестабильные признаки. В крупномасштабном исследовании, охватывающем различные начальные инициализации, модели, слои, размеры словарей и варианты SAE, мы обнаруживаем выраженную функциональную асимметрию: стабильные признаки несут большую часть сигнала, значимого для реконструкции и прогнозирования, тогда как нестабильные признаки имеют слабое маргинальное влияние и в своей основе определяются низкочастотными триггерами поверхностной формы как в статистике активаций, так и в автоматических объяснениях. Геометрически нестабильные признаки по отдельности невоспроизводимы, но сосредоточены в воспроизводимых подпространствах меньшего ранга, что указывает на то, что зависимость от начальной инициализации часто отражает неоднозначность базиса в рамках общего региона пространства активаций, а не чистый шум. Контролируемая синтетическая модель делает этот механизм явным, показывая, что низкоранговые признаки, соответствующие истинным данным, могут быть восстановлены на уровне подпространства, оставаясь неидентифицируемыми как отдельные латентные переменные SAE при разных начальных инициализациях. Наконец, объединяя уникальные признаки, полученные при разных инициализациях, мы конструируем более стабильные SAE, сохраняя при этом объясненную дисперсию в данном контексте. В совокупности эти результаты показывают, что нестабильные признаки — это не просто неудачные или зашумленные латентные переменные: они обладают слабым индивидуальным функциональным воздействием, но отражают воспроизводимую низкоразмерную структуру, которая в стандартных SAE разрешается по-разному в зависимости от начальной инициализации.
Диффузионные трансформеры продемонстрировали выдающиеся генеративные способности, однако богатые перцептивные представления, вычисляемые на протяжении их траектории шумоподавления, отбрасываются после того, как контент сгенерирован. Мы представляем MMDiff — фреймворк, который превращает замороженный диффузионный трансформер в мультимодальную генеративную систему, совместно создающую изображения вместе с любой комбинацией плотных перцептивных модальностей с использованием легковесных головок декодера. Наше ключевое открытие заключается в том, что перцептивная информация распределена во времени вдоль траектории шумоподавления, а многошаговое слияние признаков с пространственно-варьируемыми весами агрегации является необходимым, улучшая результаты семантической сегментации на величину до 28,7% mIoU по сравнению с извлечением из одного временного шага. Далее мы применяем извлечение внимания на основе концепций для интерпретируемого пространственного управления и показываем, что замороженные диффузионные признаки конкурентоспособны и дополняют современные кодировщики, такие как DINOv3. Обучая только легковесные головки декодера на замороженной базовой модели, мы достигаем высоких результатов в семантической сегментации, обнаружении значимых объектов и оценке глубины, а также демонстрируем, что данный фреймворк обеспечивает эффективную генерацию синтетических данных в масштабе.
Сложные рассуждения обычно требуют использования подсказок цепочки рассуждений (Chain-of-Thought), что обеспечивает точность, но приводит к неприемлемым задержкам и значительным вычислительным затратам на этапе инференса. Стандартная альтернатива — тонкая настройка меньших моделей — часто жертвует интерпретируемостью, одновременно внося существенные ресурсные и операционные издержки. Для преодоления этих ограничений мы предлагаем метод дистилляции на уровне промптов (Prompt-Level Distillation, PLD). Мы извлекаем явные паттерны рассуждений из модели-учителя и организуем их в структурированный список выразительных инструкций для системного промпта модели-ученика. При оценке на Gemma-3 4B PLD улучшила макро F1 на StereoSet (с 57% до 90,0%) и Contract-NLI (с 67% до 83%), а также повысила точность на LogiQA до 70%. Аналогичные результаты на Mistral Small 3.1 демонстрируют межархитектурную обобщаемость, позволяя этим компактным моделям достигать производительности передовых решений с пренебрежимо малыми задержками. Эти выразительные инструкции делают процесс принятия решений прозрачным, допуская полную верификацию логики человеком, что делает данный подход идеальным для регулируемых отраслей, таких как юриспруденция, финансы и модерация контента, а также для высоконагруженных сценариев и периферийных устройств.
Обучение с подкреплением с разреженными наградами (RL) стало стандартным инструментом для улучшения рассуждений больших языковых моделей (LLM), однако его успех критически зависит от покрытия, присутствующего в базовой модели. На практике модели часто подготавливаются к RL с помощью промежуточного обучения на отобранных цепочках рассуждений, которые формируют полезные базовые навыки, такие как декомпозиция, верификация или самокоррекция. Хотя эта стратегия эффективна, она требует ручного указания того, что должна изучать модель, и остается неясным, достаточно ли такого базового покрытия для значительно более сложных задач, требующих комбинирования этих навыков в более широкие стратегии решения. Мы исследуем более автоматизированный подход: промежуточное обучение на основе RL с использованием крупных корпусов данных вида «вопрос-ответ», созданных человеком. Вместо того чтобы рассматривать эталонные решения как цели для имитации, наш метод ExpRL использует их как каркасы для вознаграждения: эталонные решения скрыты от политики и применяются лишь для построения критериев оценки, специфичных для конкретной задачи, с целью суждения о цепочках рассуждений, порождаемых текущей политикой. Политика производит выборку из исходного промпта задачи, в то время как судья на основе LLM сравнивает полученную цепочку рассуждений с эталонным решением и назначает плотные награды на уровне результата или процесса. Это позволяет ExpRL усиливать частичный прогресс, полезные промежуточные редукции и продуктивные паттерны рассуждений, которые разреженные награды за окончательный ответ часто не в состоянии должным образом оценить. На сложных задачах математического рассуждения ExpRL обеспечивает более сильную предварительную подготовку для RL, чем SFT, GRPO с разреженными наградами и самодистилляция, а также создает лучшую начальную точку для последующего RL с разреженными наградами. Дополнительные эксперименты на смешанных доменах также показывают, что ExpRL может выходить за рамки исходной математической области.
Согласованная генерация видео при операциях редактирования требует постоянства: когда правки изменяют внешний вид сцены или компоновку, последующие генерации должны оставаться согласованными во времени и с разных точек обзора. Однако существующие конструкции памяти испытывают трудности с поддержанием долгосрочной согласованности после таких модификаций, поскольку сохраненные контексты могут устареть или стать недействительными. Чтобы решить эту проблему, мы предлагаем PermaVid — новую структуру, основанную на многомодальной контекстной памяти, которая разделяет пространственный контекст на семантическую внешность и геометрическую структуру, а также редакционно-осознанную стратегию обновления и извлечения памяти, обеспечивающую согласование эволюции памяти с последующими наблюдениями. Конкретно, мы разрабатываем два взаимодополняющих банка памяти: RGB контекстную память, которая фиксирует наблюдения, учитывающие внешность, неявно кодируя геометрию, и глубинную контекстную память, которая сохраняет структуру только геометрии, отделенную от семантики. Основываясь на этой конструкции, мы внедряем управляемую памятью модель генерации видео, которая выполняет многомодальное слияние признаков при эталонных условиях, извлеченных из контекстов памяти смешанной модальности. Эксперименты демонстрируют, что наш метод поддерживает высокую долгосрочную семантическую и структурную согласованность после редактирования, значительно превосходя современные методы.
Добро пожаловать в девятый выпуск отчета AI Index. Поскольку ИИ продолжает стремительно развиваться, возникает вопрос, смогут ли системы, созданные на его основе, идти в ногу с этим развитием. Рамки управления, методы оценки, системы образования и инфраструктура данных, необходимая для отслеживания влияния ИИ, с трудом поспевают за темпами развития самой технологии. Этот разрыв между возможностями ИИ и нашей готовностью управлять ими проходит через все главы отчета этого года. Новшеством данного выпуска является то, что в отчете отслеживается, как ИИ тестируется более амбициозно в области рассуждений, безопасности и выполнения реальных задач, а также объясняется, почему на эти измерения становится все труднее полагаться. Кроме того, отчет содержит новые оценки экономической ценности генеративного ИИ наряду с появляющимися данными о его влиянии на рынок труда, аналитическую основу по суверенитету ИИ и главу о науке, разработанную в сотрудничестве с Schmidt Sciences. Впервые в отчете представлены отдельные главы, посвященные ИИ в науке и ИИ в медицине, что отражает растущее влияние ИИ в этих двух областях.
Большие языковые модели (БЯМ) всё чаще применяются в качестве основы для генеративной рекомендации (ГР), что сулит доступ к предобученным знаниям о мире. Однако надёжное использование этих знаний для ГР остаётся слабо изученным. Ключевым препятствием является то, что БЯМ-основанные ГР обычно представляют элементы с помощью семантических идентификаторов (СИД), что нарушает интерфейс рассуждений на естественном языке БЯМ, поскольку эти токены не встречались модели во время предобучения. Существующие подходы решают эту проблему дорогостоящими многоэтапными конвейерами, которые закрепляют СИД и извлекают явные обоснования, но дают ограниченное понимание того, когда и зачем необходим каждый этап. В данной работе мы систематически декомпозируем конвейеры обучения с явными рассуждениями для БЯМ-основанной ГР, выявляя три ключевых ограничения: ослабление вербализации знаний о мире, рассогласование пространств вложений СИД и токенов естественного языка, а также чувствительность к качеству обоснований, — все они снижают производительность явных рассуждений. Для преодоления этих проблем мы предлагаем PauseRec — лёгкую парадигму неявных рассуждений, адаптированную для ГР. PauseRec исключительно практичен: он позволяет избежать дорогостоящего получения цепочек рассуждений и обучения выравниванию рассуждений, что даёт множество преимуществ: (1) он превосходит стандартные методы явной цепочки рассуждений (CoT) на величину до 6,22%, (2) сокращает затраты на обучение до 65% часов GPU и (3) ускоряет инференс до 71,3%. Эти результаты позиционируют PauseRec как лёгкую альтернативу явному формированию обоснований, обеспечивая более эффективную и действенную БЯМ-основанную ГР.
Человек естественным образом понимает физику объектов через повседневное взаимодействие, однако точное предсказание сложной деформируемой динамики, такой как поведение эластичных материалов и тканей, остаётся серьёзной задачей для компьютерного зрения и робототехники. Мы представляем EgoPhys — фреймворк, который строит деформируемые физические цифровые двойники на основе только эгоцентрического RGB-видео, используя обобщаемые априорные знания. EgoPhys преодолевает ограничения существующих методов, обеспечивая управляемую генерацию деформируемых цифровых двойников из эгоцентрических видео за счёт дистилляции решений обратной физической задачи для каждого объекта в компактную кодовую книгу, что позволяет предсказывать поля плотности жёсткости пружин для невидимых объектов без оптимизации для каждой пружины на этапе тестирования. Обученный с использованием обобщаемых априорных знаний, полученных из разнообразных эгоцентрических взаимодействий, EgoPhys превосходит базовые методы в реконструкции, прогнозировании будущих состояний и обобщении без предварительного обучения. Для поддержки обучения и оценки мы собрали набор данных эгоцентрических взаимодействий, охватывающий разнообразные деформируемые объекты, сцены и стили манипуляции. Мы развернули EgoPhys на реальном роботе xArm6, демонстрируя, что цифровой двойник, инициализированный по одному эгоцентрическому видео игры человека, может служить внутренним представлением мира, помогающим в планировании действий с деформируемыми объектами, что подчёркивает эгоцентрические RGB-наблюдения как масштабируемый путь к конвейерам «от реальности к симуляции».
Стандартные бенчмарки точности предназначены для оценки того, насколько точно большие языковые модели (БЯМ) приближаются к правильным ответам, но не подходят для проверки, придерживаются ли модели верного ответа, когда он оспаривается правдоподобным контраргументом. Мы предлагаем контролируемый протокол для оценки стабильности ответа: после того как модель дает правильный ответ на вопрос с множественным выбором, мы оспариваем ее ответ связным аргументом в пользу неверного варианта и измеряем, меняет ли модель решение. Данная установка: a) изолирует аргументативное содержание от явного социального давления; b) варьирует длину аргумента, самоатрибуцию и источник из другой модели. На семи передовых моделях и 57 предметах MMLU доля изменений ответа варьируется от 17,5% до 97,3%, что выявляет значительные различия в стабильности, не отражаемые одними лишь метриками точности. Мы обнаружили, что самоатрибуция последовательно увеличивает долю изменений (в среднем на +7,1 п.п., до +18,7 п.п.). Кроме того, объединение аргументов за неверные ответы от разных моделей и выбор наиболее эффективного для каждого вопроса дает более сильные состязательные вызовы, чем опора на какой-либо единый источник-модель. Мы также создаем MaxFlip — курируемый набор вызовов, усиливающий изменения до +23,6 п.п. по сравнению со стандартными самогенерируемыми вызовами. Мы публикуем протокол, записи вызовов и MaxFlip для поддержки оценки стабильности наряду со стандартными бенчмарками точности. Материалы доступны по адресу https://github.com/nafisenik/WhoFlips и https://hf.co/datasets/nafisehNik/WhoFlips.
Модели «видение-язык-действие» (Vision-Language-Action models, VLA) используют крупномасштабное предобучение на данных «видение-язык» для семантического управления роботами, но зачастую лишены явного предвидения того, как действия робота изменяют сцену. Модели «мир-действие» (World-Action Models, WAM) устраняют это ограничение, обусловливая политики предсказанными будущими состояниями, однако существующие подходы обычно опираются на вычислительно затратную генерацию видео со значительной избыточностью на уровне пикселей. Мы представляем LaWAM — скрытую мировую модель действия (Latent World Action Model), которая предоставляет роботизированным политикам предсказательную динамику через компактные скрытые визуальные подцели, а не через реконструированное будущее видео. В основе LaWAM лежит обусловленная скрытыми действиями скрытая мировая модель (Latent World Model, LaWM). Мы получаем LaWM, обучая модель скрытых действий в латентном пространстве предобученной фундаментальной модели зрения и переназначая её прямой декодер для предсказания признаков будущих наблюдений с целью эволюции сцены. Затем LaWAM обусловливает генерацию действий этими предсказанными скрытыми визуальными подцелями, обеспечивая управление роботом, учитывающее динамику. LaWAM достигает современных или конкурентоспособных показателей успешности (success rates, SR) в задачах LIBERO (98.6% SR), RoboTwin (91.22% SR) и в манипуляциях в реальном мире, сохраняя при этом инференс с низкой задержкой. LaWAM выполняет предсказание одного чанка действий за 187 мс и достигает до 24-кратного снижения задержки по реальному времени по сравнению с WAM в пространстве пикселей.
Система модерации контента может получать высокие баллы по всем стандартным метрикам точности и при этом причинять реальный вред, если её ошибки приходятся на малочисленных пользователей, которые соединяют иначе разобщённые сообщества. Мы демонстрируем это на агентной модели, где N=240 обучающихся агентов в сети с коммунальной структурой публикуют безвредный, продуктивный или опасный контент, а регулятор удаляет или наказывает то, что помечает зашумлённый классификатор. Общая полезность почти не меняется при изменении шума (однофакторный дисперсионный анализ, p=0,96): по совокупным показателям ничего не выглядит неправильным. Вред же сосредоточен на этих пользователях-мостах, чьи полезные сообщения ошибочно подавляются, а опасные — ошибочно остаются безнаказанными. Управленческие потери (L_gov), которые оценивают эти две ошибки отдельно от стоимости принуждения, более чем удваиваются при шуме с преобладанием ложных срабатываний. Агрегированная точность скрывает, кто пострадал, а дешёвой величиной для аудита является количество связей пользователя (степень) — почти идеальный прокси для посредничества, определяющего мост (r=0,96).
Несмотря на значительный прогресс в разработке детекторов машинного текста, легкость, с которой машинный текст может быть изменен для уклонения от обнаружения, привела к предположениям, что эта проблема принципиально неразрешима. В данной работе мы исследуем пределы подобных стратегий уклонения. Мы показываем, что хотя текущие атаки, от инженерии запросов до оптимизации под руководством детектора, могут эффективно ухудшать производительность стандартных детекторов, они не способны стереть лежащие в основе стилистические «отпечатки» машинного текста. Мы демонстрируем, что детекторы с малым количеством примеров, использующие пространство стилистических признаков, устойчивы к этим попыткам уклонения, надежно обнаруживая образцы даже от моделей, явно настроенных на предотвращение обнаружения. Это поднимает вопрос: представляет ли стиль универсальную защиту от атак на обнаружение машинного текста? Мы показываем, что ответ «нет», вводя новый подход перефразирования, который одновременно оптимизирует необнаруживаемость и соответствие конкретным человеческим стилям. Мы показываем, что в отличие от предыдущих методов, эта атака эффективно обходит все рассмотренные детекторы, включая те, которые используют стиль письма. Однако мы обнаруживаем, что это уклонение не является абсолютным: по мере увеличения количества документов, доступных для анализа, распределения человеческого и машинного текста снова становятся различимыми. В целом, наши результаты показывают, что надежное обнаружение машинного текста требует перехода от анализа одного документа к анализу множества документов.
Человек способен без усилий захватывать объекты, тогда как многосуставные роботы далеки от такого уровня обобщения. Мы полагаем, что наиболее естественным источником данных для захвата объектов роботами являются люди, которые ежедневно поднимают тысячи предметов. Мы представляем HUG — модель согласования потоков, генерирующую разнообразные человеческие захваты для любого заданного пользователем объекта на основе одного RGB-D-изображения, полученного со стереокамеры. Используя умные очки, мы сначала собираем 1M-HUGs — эгоцентрический набор данных о человеческих захватах, охватывающий 1 млн кадров (27,8 часа) и 6 707 экземпляров объектов в 41 здании. Затем, для моделирования распределения естественных человеческих захватов, наша новая модель согласования потоков объединяет данные RGB и глубины для вывода захвата, параметризованного трансляцией запястья, вращением запястья и позой кисти по модели MANO. Предсказанные захваты могут быть перенастроены на различные кисти роботов, что позволяет осуществлять захват без обучения в повседневных сценах. Для стандартизации оценки мы создаем новый симуляционный бенчмарк HUG-Bench, состоящий из 90 ранее не встречавшихся объектов пяти геометрических категорий различных размеров с метрическими 3D-мешами. Мы оцениваем HUG в реальном мире на 30 объектах из тестового набора HUG-Bench, используя различные стереокамеры, воплощения роботов и бытовые среды. HUG превосходит современные базовые методы захвата на +23% и +34% на нашем сложном наборе объектов. Код, данные, бенчмарк, контрольные точки и интерактивное демо опубликованы на нашем веб-сайте: https://grasping.io/
Polymarket стал заметной платформой рынка прогнозов и одним из наиболее быстрорастущих приложений в DeFi. Для достижения низкой задержки при торговле он применяет гибридную архитектуру: сопоставление заявок происходит вне сети, а расчёты — в сети для окончательного исполнения. Такая конструкция создаёт разрыв консистентности, который мы называем Ghost Fills: заявка, успешно сопоставленная вне сети, может впоследствии не пройти этап ончейн-расчётов. Для понимания последствий этого разрыва для безопасности мы исследуем такие неудачные расчёты, создав GHOSTHUNTER, который восстанавливает их по ончейн-следам и относит к конкретным шаблонам атак. На 1 952 440 транзакциях с отменёнными сопоставлениями заявок мы обнаруживаем, что злоумышленники используют временной интервал между сопоставлением и расчётами для аннулирования уже сопоставленных заявок до их финализации в сети. Далее мы выявляем четыре вектора атаки: увеличение nonce, истощение баланса, отзыв разрешения и ловушка прокси, реализованные в 35 эволюционирующих вариантах. Эти векторы позволяют атакующим выборочно отменять 980 133 исполненные заявки, что даёт возможность осуществлять безрисковые прогнозы, охоту за арбитражными ботами и манипуляции с вознаграждениями за ликвидность, принося не менее 1,49 миллиона долларов прибыли. При этом под угрозой оказываются 1,78 миллиарда долларов, а оператор выплачивает 2,17 миллиона POL (около 212 тысяч долларов). В часы пик отменяется более 24,3% всех исполненных заявок, что вызывает фактическую DoS-атаку. Мы также обнаружили, что код, производный от уязвимого контракта, присутствует в 167 независимых контрактах на 10 блокчейнах, содержащих не менее 23 миллионов долларов пользовательских средств, что расширяет влияние проблемы за пределы Polymarket. Мы уведомили о своих находках затронутые стороны, и проблема частично устранена.
Мы представляем TuneJury — открытую попарную модель вознаграждения на уровне отдельных примеров для задачи «текст-в-музыку», которая предсказывает предпочтительный музыкальный балл на основе текстового запроса и аудиофрагмента. Выпущенная контрольная точка обучена на общедоступных метках человеческих предпочтений, включающих голосования в формате «арена» (A против B), предпочтительные пары на основе метрического согласования, краудсорсинговые попарные сравнения и экспертные эстетические оценки. Предсказанный разброс баллов между двумя фрагментами хорошо откалиброван на нашем отложенном тестовом наборе, что поддерживает фильтрацию данных с помощью простого порога по баллам. TuneJury обобщается как на отложенные тестовые пары, так и на эталоны вне распределения, оставаясь конкурентоспособным по сравнению с предыдущими базовыми моделями на последних. Для генераторов, выпущенных после обучения, мы вводим якорную калибровку — пост-хок, поканальную калибровку по Брэдли-Терри, которая восстанавливает согласованность при существенно лучшей эффективности данных по сравнению с переобучением с нуля. Та же фиксированная награда обеспечивает устойчивый прирост по оси вознаграждения в трёх downstream-приложениях: выбор Best-of-N во время вывода, латентная оптимизация в стиле DITTO и пост-обучение с экспертной итерацией. TuneJury доступен по адресу https://github.com/yonghyunk1m/TuneJury.