Ежедневно отобранные исследовательские статьи по ИИ с переводами
Сегодня навыки агентов создаются вручную, генерируются за один проход или эволюционируют через слабо контролируемую саморедакцию — ни один из этих подходов не работает как оптимизатор глубокого обучения для навыка, и ни один из них гарантированно улучшается относительно начальной точки под действием обратной связи. Мы утверждаем, что навык следует обучать как внешнее состояние замороженного агента, применяя ту же дисциплину, которая делает оптимизацию в пространстве весов воспроизводимой. SkillOpt, насколько нам известно, — первый систематический управляемый текстовый оптимизатор навыков агентов: отдельная модель-оптимизатор преобразует оцениваемые прогоны в ограниченные правки добавления/удаления/замены в едином документе навыка, и правка принимается только в том случае, если она строго улучшает отложенную валидационную оценку. Текстовый бюджет скорости обучения, буфер отклонённых правок и эпохальное медленное/мета-обновление делают обучение навыка стабильным, при этом на этапе развёртывания не добавляется ни одного вызова модели во время инференса. На шести бенчмарках, семи целевых моделях и трёх исполнительных обвязках (прямой чат, Codex, Claude Code) SkillOpt показывает лучший или сравнимый результат во всех 52 оцениваемых ячейках (модель, бенчмарк, обвязка) и превосходит каждого конкурента в каждой ячейке среди навыков, созданных человеком, одноразовым LLM, Trace2Skill, TextGrad, GEPA и EvoSkill. На GPT-5.5 он повышает среднюю точность без навыка на +23,5 пункта в прямом чате, на +24,8 в агентном цикле Codex и на +19,1 в Claude Code. Эксперименты по переносу дополнительно показывают, что оптимизированные артефакты навыков сохраняют ценность при перемещении между масштабами моделей, между средами выполнения Codex и Claude Code, а также на близкий математический бенчмарк без дополнительной оптимизации.
Диффузионные трансформеры (Diffusion Transformers, DiTs) стали де-факто основой современных систем генерации изображений; практически все ключевые аспекты их архитектуры — токенизация, механизм внимания, conditioning, целевые функции и латентные автоэнкодеры — были многократно пересмотрены. Однако остаточный поток (residual stream), управляющий накоплением информации между слоями, был напрямую унаследован от оригинального трансформера. В данной работе мы проводим систематический эмпирический анализ межслойного информационного потока в DiTs, рассматривая его совместно по глубине сети и временному шагу шумоподавления (denoising timestep), и выявляем три конкретных симптома традиционного остаточного сложения: монотонное увеличение амплитуды сигнала при прямом проходе, резкое затухание градиента при обратном распространении и выраженную избыточность на уровне блоков. Основываясь на этом диагнозе, мы предлагаем метод Diffusion-Adaptive Routing (DAR) — взаимозаменяемую замену остаточных связей, выполняющую обучаемую, адаптивную по временному шагу и неинкрементальную агрегацию истории выходов подслоёв. Предложенный DAR совместим со многими современными методами улучшения трансформеров, такими как REPA. На наборе данных ImageNet 256×256 DAR улучшает показатель FID для модели SiT-XL/2 на 2,11 (7,56 против 9,67) и достигает качества, сопоставимого с базовым уровнем сходимости, при сокращении количества итераций обучения в 8,75 раза. В сочетании с REPA DAR обеспечивает двукратное ускорение обучения на начальном этапе, что указывает на то, что маршрутизация межслойной информации является малоизученным аспектом проектирования диффузионных моделей, действующим ортогонально существующим целям выравнивания представлений. Помимо предварительного обучения, DAR также может быть применён на этапе дообучения крупномасштабных моделей T2I, сохраняя высокочастотные детали при дистилляции с согласованием распределений (Distribution Matching Distillation).
Мы представляем Lens — модель T2I с 3,8 млрд параметров, которая достигает производительности, конкурентоспособной, а в ряде случаев и превосходящей современные модели с более чем 6 млрд параметров по различным бенчмаркам, при этом требуя значительно меньших вычислительных затрат на обучение. Например, Lens требует лишь около 19,3% вычислительных ресурсов обучения, используемых Z-Image. Эффективность обучения Lens обусловлена двумя ключевыми стратегиями, помимо компактного размера модели. Во-первых, мы максимизируем информационную плотность данных в каждом обучающем батче за счет (i) обучения на Lens-800M — наборе данных из 800 млн пар изображение-текст с плотными подписями, сгенерированными GPT-4.1 и содержащими в среднем около 109 слов, что обеспечивает более богатый семантический надзор по сравнению с обычными короткими подписями, и (ii) формирования каждого батча из изображений с различными разрешениями и разнообразными соотношениями сторон, тем самым расширяя эффективное визуальное покрытие каждого шага оптимизации. Во-вторых, мы улучшаем скорость сходимости за счет тщательного выбора архитектуры, включая применение семантического VAE, обеспечивающего более качественные латентные представления, и использование мощного языкового энкодера, который ускоряет оптимизацию и позволяет обобщать на несколько языков на основе только англоязычных обучающих данных. После предварительного обучения мы применяем RL с таксономически управляемыми промптами (Lens-RL-8K) и структурированными рубриками вознаграждения для подавления артефактов и улучшения визуального качества, модуль рассуждения (reasoner) с поиском системного промпта без обучения для лучшего согласования запросов пользователя с моделью, а также ускорение на основе дистилляции для 4-шагового инференса. Благодаря эффективному обучению и систематической оптимизации Lens обобщается на произвольные соотношения сторон от 1:2 до 2:1 и разрешения до 1440×1440, а также поддерживает промпты на нескольких распространенных языках. Благодаря компактному размеру Lens генерирует изображение размером 1024×1024 за 3,15 секунды на одном GPU NVIDIA H100, а его дистиллированная турбо-версия выполняет 4-шаговую генерацию за 0,84 секунды.
Экспоненциальный рост глобального объёма научных публикаций поставил перед исследователями и AI-агентами проблему беспрецедентного «информационного взрыва», где фрагментированная и неструктурированная организация знаний препятствует глубокой междисциплинарной интеграции. Современные инструменты академического поиска в основном полагаются на поверхностное совпадение ключевых слов или семантический поиск в векторном пространстве, что лишено возможностей топологических рассуждений, необходимых для навигации по сложным логическим связям. Агентные фреймворки на основе глубоких исследований часто склонны к логическим галлюцинациям и требуют высоких вычислительных затрат. Для преодоления этого разрыва в данном отчёте мы представляем SciAtlas — крупномасштабный, мультидисциплинарный, гетерогенный граф знаний академических ресурсов, разработанный как панорамная сеть научной эволюции. Объединяя более 43 миллионов статей из 26 дисциплин, а также в общей сложности 157 миллионов сущностей и 3 миллиарда триплетов, SciAtlas предоставляет структурированную топологическую когнитивную основу, которая разрушает дисциплинарные барьеры и наделяет AI-агентов глобальной перспективой. Кроме того, мы разрабатываем нейро-символический алгоритм поиска, включающий совместное извлечение по трём путям и переранжирование графа, что обеспечивает бесшовный переход от простого семантического сопоставления к детерминированному обнаружению связей. Мы также представляем ключевые направления применения SciAtlas, включая обзор литературы, автоматический синтез исследовательских тенденций, позиционирование идей и изучение академических траекторий, чтобы продемонстрировать, что SciAtlas может служить эффективной «когнитивной картой», обеспечивающей полный цикл автоматизированных научных исследований при значительном снижении вычислительных затрат. Мы опубликовали интерфейсы для поиска по графу знаний и различных задач нижнего уровня в нашем репозитории на GitHub.
Унифицированное моделирование аудио-языка стало заметной тенденцией в современных речевых системах, обещая привнести способности к рассуждению больших языковых моделей в слуховые задачи. Однако существующие унифицированные основы часто не могут сравниться с глубиной специализированных систем в области автоматического распознавания речи (ASR), синтеза речи из текста (TTS) и интерактивного общения в реальном времени. Преодоление этого разрыва остается открытой задачей. В данном отчете представлена модель StepAudio 2.5 — унифицированная аудио-языковая базовая модель, которая соответствует или превосходит специализированные системы по всем трем возможностям. Вместо того чтобы рассматривать эти задачи как архитектурно различные, мы исходим из предпосылки, что после того, как текст и аудио разделяют мультимодальное репрезентативное пространство, специализация задач становится вопросом операционных режимов: построения данных, целей оптимизации и ограничений декодирования. Руководствуясь этим пониманием, мы продвигаем парадигму пост-обучения от стандартного обучения с учителем к целенаправленному обучению с подкреплением на основе человеческой обратной связи (RLHF), используя его в качестве основного механизма для определения сложных целей оптимизации. Мы используем это ориентированное на RLHF согласование, наряду со специализированным декодированием, чтобы сформировать общий базовый компонент в три различных операционных режима. Конкретно, ветвь ASR повышает эффективность транскрипции с помощью проверяемого многотокенного декодирования; ветвь TTS достигает контролируемого, выразительного синтеза с помощью RLHF на основе предпочтений и контекстно-богатого контроля; а ветвь Realtime реализует диалог с низкой задержкой и согласованностью личности с помощью генеративного моделирования вознаграждения в рамках RLHF. На стандартных тестах StepAudio 2.5 достигает самых современных результатов в ASR, TTS и Realtime, демонстрируя, что единая аудио-языковая основа может успешно интернализировать различные цели развертывания понимания речи, генерации и живого взаимодействия.
Мы представляем SWIM (See What I Mean) — новую стратегию обучения, которая выравнивает представления зрения и языка для достижения тонкозернистого понимания объектов исключительно по текстовым запросам. В отличие от существующих подходов, требующих явных визуальных подсказок, таких как маски или точки, SWIM использует маски в качестве супервизии только во время обучения для направления кросс-модального внимания, что позволяет модели автоматически фокусироваться на указанном пользователем объекте на этапе инференса. Наш анализ кросс-внимания предварительно обученных мультимодальных больших языковых моделей (MLLM) выявляет систематическое несоответствие: слова-атрибуты генерируют резкие, локализованные активации в визуальной модальности, тогда как существительные, обозначающие объекты, дают размытые и рассеянные паттерны из-за семантического смещения референции и распределенных высокоуровневых представлений. Для устранения этого несоответствия мы создали NL-Refer — обогащенный набор данных, в котором каждая маска объекта сопоставлена с точным естественно-языковым выражением референции. SWIM извлекает многослойные карты кросс-внимания от существительных объектов и обеспечивает пространственную согласованность с эталонными масками. Экспериментальные результаты показывают, что SWIM значительно улучшает текстово-визуальное выравнивание и превосходит методы, основанные на визуальных подсказках, на бенчмарках тонкозернистого понимания объектов. Код и данные доступны по адресу https://github.com/HumanMLLM/SWIM.
Языковые агенты всё чаще совершенствуются за счёт повторного использования навыков — структурированных процедурных артефактов, извлечённых из прошлого опыта. В особенности перспективны навыки, ориентированные на домен, и навыки, сгенерированные моделью. Они обеспечивают быструю адаптацию в рамках домена за счёт кодирования повторяющихся процедур, специфичных для данного домена, и масштабируются за пределы трудоёмкого ручного создания. Однако, несмотря на продолжающееся распространение методов извлечения, понимание остаётся ограниченным: отсутствует всестороннее исследование, охватывающее полный жизненный цикл навыка — генерацию опыта, извлечение навыка и его потребление, — чтобы выяснить, действительно ли такие навыки работают, когда они работают и что определяет их успех или неудачу. Для восполнения этого пробела мы создаём оценочную среду, основанную на полезности, которая предоставляет систематические экспериментальные результаты для различных извлекателей и целевых агентов, охватывая пять разнообразных доменов агентных задач. Мы обнаружили, что навыки, сгенерированные моделями, в среднем полезны, но демонстрируют нетривиальный отрицательный перенос, и что ни извлекатели, ни цели не ведут себя единообразно. Модель может быть сильным извлекателем, но слабым потребителем, или наоборот, причём полезность навыка не зависит от масштаба модели или базовой сложности задачи. Чтобы объяснить эти закономерности, мы затем детально разбираем каждый этап жизненного цикла, анализируя, как состав опыта формирует качество навыка, какие свойства характеризуют полезные навыки и как один и тот же навык переносится между разными потребителями. Наконец, мы преобразуем эти результаты в конкретный метанавык, который направляет извлечение навыков на признаки, связанные с фактической полезностью, что последовательно улучшает качество навыков в разных доменах и существенно снижает отрицательный перенос.
Большинство практических систем генерации текста в изображение высокого разрешения, включая латентные диффузионные и авторегрессионные модели, выполняют генерацию в компактном латентном пространстве, а декодер отображает сгенерированные латентные представления обратно в пиксели. Однако такой декодер "латентные-в-пиксели" ориентирован на реконструкцию и оптимизирован для инвертирования энкодера, а не для синтеза дополнительных деталей, причем его стоимость становится все более высокой при масштабе мегапикселей. Данный недостаток требует более выразительной и эффективной парадигмы декодирования. Руководствуясь последними успехами в масштабируемой пиксельной диффузии, мы представляем PiD — пиксельный диффузионный декодер (Pixel diffusion Decoder), который переформулирует латентное декодирование как условную пиксельную диффузию, объединяя декодирование и апсемплинг в единый генеративный модуль. За счет шумоподавления непосредственно в пиксельном пространстве высокого разрешения PiD синтезирует изображения с увеличением в 4 и даже 8 раз при низкой задержке. Для латентного обусловливания используется легковесный адаптер с учетом сигмы (sigma-aware adapter), который вводит зашумленные латентные представления в основу пиксельной диффузии, позволяя PiD декодировать частично очищенные от шума латентные представления и завершать латентный диффузионный процесс на ранней стадии. Для дальнейшего повышения эффективности мы дистиллируем модель с помощью DMD2, сокращая инференс до всего 4 шагов. PiD применим как к обычным латентным представлениям VAE, так и к семантическим латентным представлениям (например, SigLIP, DINOv2), используемым в недавних моделях на основе RAE. PiD декодирует латентные представления изображений размером 512×512 в пиксели 2048×2048 менее чем за 1 секунду при пиковом потреблении 13 ГБ памяти на потребительском GPU RTX 5090, и всего за 210 мс на GPU GB200, что примерно в 6 раз быстрее каскадных конвейеров суперразрешения на основе диффузии при лучшей визуальной достоверности.
Виртуальная фотография предполагает, что агент входит в подготовленную 3D-сцену без заранее выбранного положения камеры или эталонного изображения, выводит подходящий кадр на основе информации о сцене и языкового намерения, выбирает исполнимые параметры камеры и рендерит итоговую фотографию. Недавние успехи моделей зрения и языка делают такого рода пространственного агента всё более реалистичным, однако задача требует двух способностей, которые по-прежнему трудно оценивать совместно: сложного трёхмерного пространственного понимания и абстрактного эстетического суждения. Мы представляем PhotoFlow — агента «Директор–Рецензент–Рефлектор» для замкнутого поиска камеры. Директор строит мягкий фотографический план и предлагает разнообразные кандидатные камеры; Рецензент объединяет проверки правил, визуальную критику и попарный выбор текущего решения; Рефлектор преобразует неудачи в память регионов, подавление мёртвых зон и перемещение с высоким исследованием. Мы также представляем VPhotoBench — эталонный набор из 47 сцен Blender с открытой лицензией и 141 языково-обусловленной фотографической миссии, охватывающей размещение объекта, реляционную композицию и атмосферу/стиль. В экспериментах на отложенных данных PhotoFlow достигает наилучшего внешнего композитного показателя качества-согласованности и успешности среди одношагового предсказания, одноцепочного отражения, выбора из банка опорных точек и случайного поиска при бюджете визуализации в шесть раундов. Насколько нам известно, это первая работа, превращающая языково-обусловленную виртуальную фотографию в произвольных сценах Blender в исполняемую задачу для агента, и наши результаты показывают, что пространственный агент на основе большой языковой модели уже способен создавать сильные фотографии в условиях, созданных для проверки как трёхмерного рассуждения, так и эстетического выбора.
Пространственно-временное рассуждение является ключевой способностью мультимодальных больших языковых моделей (MLLM), функционирующих в реальном мире. В связи с этим точная оценка этой способности становится важнейшей задачей. Однако существующие эталонные наборы данных для оценки пространственно-временного рассуждения в основном опираются на статические наборы изображений или пассивно подобранные видеоданные, что ограничивает оценку тонких способностей к рассуждению. В данной статье мы представляем VGenST-Bench — видеобенчмарк, в котором используются генеративные модели для активного синтеза высококонтролируемых и разнообразных сценариев оценки. Для построения VGenST-Bench мы предлагаем многогентный конвейер, включающий этап контроля качества человеком, что гарантирует качество всех сгенерированных видео и пар «вопрос-ответ». Мы разрабатываем всеобъемлющую таксономию видео 3x2x2, охватывающую пространственный масштаб, перспективу и динамику сцены для представления разнообразных сценариев. Кроме того, мы создаем иерархический набор задач, разделяющий низкоуровневое визуальное восприятие и высокоуровневое пространственно-временное рассуждение. Смещая парадигму от пассивного подбора к активному синтезу, VGenST-Bench обеспечивает тонкую диагностику пространственно-временного понимания в MLLM.
Дискретные авторегрессионные (AR) модели текст-в-изображение (T2I) объединяют VQ-токенизатор с AR-политикой, и в существующих конвейерах пост-обучения оптимизируется только политика при замороженном VQ-декодере. Недавние работы по диффузионным T2I-моделям, в частности REPA-E, показали, что сама VAE является ключевым узким местом выравнивания, однако аналогичное исследование для дискретных AR-моделей отсутствует. Мы демонстрируем, что оптимизация только политики приводит к латентному ковариатному сдвигу: по мере эволюции политики результирующее распределение токенов отклоняется от истинного распределения, на котором обучался декодер, вследствие чего оценки награды улучшаются, а качество декодированных изображений ухудшается. Для устранения этого несоответствия мы предлагаем RankE — первый сквозной фреймворк пост-обучения для дискретной генерации T2I. Вместо оптимизации политики относительно фиксированного декодера RankE обеспечивает совместную эволюцию обоих компонентов посредством чередующейся оптимизации: каждый модуль максимизирует целевую функцию выравнивания на основе ранжирования, при этом регуляризируясь стабилизирующим якорем, адаптированным к его пространству параметров. Такая ко-эволюция устраняет компромисс между точностью воспроизведения и выравниванием, свойственный подходам с замороженным декодером: на LlamaGen-XL (775M) стандартное RL улучшает CLIP, но ухудшает FID, тогда как RankE одновременно улучшает оба показателя (FID 15,21, CLIP 33,76 на MS-COCO 30K). Устойчивые улучшения на Janus-Pro (1B) подтверждают, что ко-эволюция декодера надежно преобразует оптимизацию награды в улучшение качества в пиксельном пространстве.
Мультимодальные большие языковые модели достигли успехов в визуальном рассуждении, однако чисто текстовая цепочка рассуждений остается узким местом для задач, требующих детального внимания или преобразований перспективы. Парадигма «мышление с изображениями» сокращает этот разрыв, но существующие подходы либо ограничены фиксированными предопределенными наборами инструментов, либо порождают зашумленные промежуточные изображения с помощью унифицированных мультимодальных методов. Мы рассматриваем третий вариант: использование специализированной модели редактирования изображений и ее отделение от модели понимания. Однако готовые редакторы изображений не подходят в качестве ассистентов рассуждений из-за двух взаимодополняющих пробелов: со стороны языка — редакторы, обученные как пассивные исполнители инструкций, не могут сопоставить абстрактный вопрос с соответствующим визуальным преобразованием; и со стороны генерации — качество редактирования снижается по мере увеличения глубины рассуждений. Руководствуясь этим анализом, мы представляем ETCHR (Редактирование для уточнения и использования рассуждений) — редактор изображений, учитывающий вопросы и рассуждения, отделенный от последующей модели понимания и обученный по двухэтапной методике, нацеленной на два упомянутых пробела: имитация рассуждений с помощью контролируемой донастройки на траекториях редактирования с последующим улучшением рассуждений с использованием вознаграждений, полученных от VLM (модели визуально-языкового понимания), за правильность редактирования и точность последующих рассуждений. Поскольку редактор отделен, ETCHR подключается к различным открытым и закрытым мультимодальным большим языковым моделям (ММЯМ) без дополнительного обучения. На пяти семействах задач (детальное восприятие, понимание диаграмм, логические рассуждения, восстановление пазлов и трехмерное понимание) ETCHR повышает средний показатель Pass@1 с 55,95 до 60,77 (+4,82) для Qwen3-VL-8B, с 65,08 до 70,55 (+5,47) для Gemini-3.1-Flash-Lite и с 76,55 до 81,16 (+4,61) для модели MoE (смесь экспертов) с 1 триллионом параметров Kimi K2.5.
Интерактивные мировые модели для шутеров от первого лица (FPS) должны обрабатывать высокочастотные перекрывающиеся управляющие сигналы на каждом кадре, не нарушая при этом незатронутые области. Существующие методы внедряют действия глобально и обучаются на отдельных играх, что приводит к сбоям при плотных входных данных FPS. Мы замечаем, что действия в FPS пространственно избирательны: дискретные события, такие как выстрел или перезарядка, затрагивают лишь локализованную область вокруг оружия (прицел), в то время как непрерывные сигналы камеры и движения управляют стабильным окружением. Мы предлагаем SCOPE — модуль, встраивающий блок обусловливания в каждый блок трансформера предварительно обученной диффузионной модели видео. Он преобразует признаки в попиксельные временные последовательности, так что каждая позиция вычисляет свой отклик на действие на основе локального визуального содержимого. Это обеспечивает разделение эффектов в прицеле и вне его без использования меток сегментации. Также мы представляем CrossFPS — первый меж-игровой набор данных FPS с покадровой телеметрией действий. Он состоит из 69 тысяч клипов из 7 игр с 10-степенными свободы управляющими сигналами, отобранных для исключения игрового смещения. Модель изучает общие визуально-действенные соответствия, а не специфичные для игры паттерны, что позволяет выполнять перенос без обучения на невидимые сцены. Эксперименты подтверждают высокую отзывчивость на действия, точное разделение прицела и эффективное обобщение между играми.
Существующие законы масштабирования для больших языковых моделей (LLM), преимущественно монотонные степенные законы, не могут объяснить возникающие немонотонные явления, такие как катастрофическое переобучение и деградация, вызванная квантованием, когда производительность ухудшается, несмотря на увеличение вычислительных затрат. Мы предлагаем закон масштабирования Шеннона — единую теоретическую рамку, которая моделирует обучение LLM как передачу информации по зашумленному каналу, основанную на теореме Шеннона–Хартли. Сопоставляя параметры модели с полосой пропускания канала, а обучающие токены — с мощностью сигнала, наша формулировка явно отражает взаимодействие между обучающим сигналом и внутренним шумом. Эта перспектива раскрывает фундаментальную пропускную способность Шеннона для LLM: масштабирование размера модели или объёма данных без сохранения достаточного отношения сигнал/шум (ОСШ) неизбежно усиливает шум, вызывая переход от монотонного улучшения к U-образной деградации производительности. Мы подтверждаем нашу теорию экспериментами на моделях Pythia и OLMo2 при возмущениях, включая гауссов шум, квантование и контролируемую тонкую настройку на задачах по математике, ответам на вопросы и коду. Закон масштабирования Шеннона последовательно превосходит классические законы масштабирования и недавние законы, учитывающие возмущения, демонстрируя высокие значения R² и точно отражая бассейны потерь, которые упускались предыдущими подходами. Он также экстраполирует: будучи подогнанным на моделях Pythia с ≤6,9 млрд параметров и ≤180 млрд токенов, он предсказывает производительность неизвестной модели 12B на до 307 млрд токенов с объединённым R² = 0,847, в то время как монотонные базовые модели теряют предсказательную силу.
Недавние достижения в области визуально-языковых моделей (VLM) подчеркивают важность длинных цепочек рассуждений; тем не менее, мы обнаруживаем, что их производительность в визуальных задачах в первую очередь ограничена недостатком визуального восприятия, а не самих рассуждений. В данной работе мы систематически изучаем взаимосвязь между восприятием и рассуждением в пост-обучении VLM, разбивая их возможности на три отдельных этапа обучения: визуальное восприятие, визуальное рассуждение и текстовое рассуждение, с использованием специализированных обучающих данных. Мы демонстрируем, что визуальное восприятие (а) требует целенаправленной оптимизации со специализированными данными; (б) служит фундаментальной основой, которая должна быть укреплена путем поэтапного обучения перед уточнением визуальных рассуждений; и (в) более эффективно изучается с помощью обучения с подкреплением (RL), а не SFT на основе подписей. Наши эксперименты на нескольких VLM показывают, что поэтапное обучение последовательно улучшает как визуальное восприятие, так и производительность рассуждений по сравнению с объединенным обучением. Примечательно, что модели, обученные с помощью нашего подхода, достигают на 1,5% более высокой точности рассуждений при на 20,8% более коротких цепочках рассуждений, что позволяет предположить, что превосходное восприятие снижает потребность в чрезмерных рассуждениях. Кроме того, мы показываем, что такое поэтапное разделение по способностям представляет собой новое измерение куррикулума, ортогональное традиционным куррикулумам, основанным на сложности, и их объединение дает дополнительные аддитивные выигрыши. Наши модели с поэтапным обучением достигают превосходной производительности среди VLM с открытыми весами, устанавливая передовые результаты на нескольких задачах визуальной математики и восприятия (например, +5,2% на WeMath и +3,7% на RealWorldQA) по сравнению с базовой версией.
Управляемая камерой генерация видео достигла значительного прогресса в последние годы. Однако существующие методы перерендеринга видео в видео в основном полагаются на контролируемую тонкую настройку с использованием синтетических наборов данных. В настоящее время наблюдается крайний дефицит синхронизированных многовидовых видеоданных реального мира. Вследствие этого преобладающая парадигма часто демонстрирует ограниченную обобщающую способность при обработке видеоданных реального мира, выходящих за пределы распределения, при этом модели с трудом точно соблюдают физические масштабы и траектории камеры. Для преодоления этого разрыва мы предлагаем Geo-Align — первую структуру обучения с подкреплением, специально разработанную для управляемого камерой перерендеринга видео. Основываясь на предварительно обученной модели, мы оптимизируем модель с помощью механизма перцептивного вознаграждения, учитывающего масштаб. В частности, мы вводим метрический 3D-оценщик для извлечения точных траекторий камеры из сгенерированных видео, явно штрафуя отклонения по вращению и перемещению. Кроме того, мы тщательно разработали стратегию конвейера данных, основанную на условиях видео реального мира и целевых траекториях камеры, полученных из синтетических данных, что устраняет зависимость от парных данных. Обширные эксперименты показывают, что Geo-Align последовательно превосходит существующие базовые модели обучения с учителем как по точности управления камерой, так и по визуальной достоверности, что указывает на эффективность нашего метода.
Мюон — это матрично-осознанный оптимизатор, использующий итерации Ньютона–Шульца (NS) для принудительной ортогонализации спектрального градиента путем подтягивания всех сингулярных значений матрицы импульса к 1. Хотя такое равномерное спектральное отбеливание улучшает исследование и превосходит AdamW при предобучении больших языковых моделей, мы показываем, что оно может приводить к фундаментальным ограничениям за пределами предобучения в двух режимах: (i) кросс-модальное обучение «зрение–язык–действие» (VLA), где градиенты модуля действий, имеющие по своей природе низкий ранг, вызывают усиление шумных хвостовых направлений, и (ii) обучение с подкреплением на основе проверяемых наград (RLVR), где низкое отношение сигнал/шум градиентов и необходимость сохранения специализации по головам из предыдущего обучения делают отбеливание нестабильным. Для решения этих проблем мы предлагаем Pion — замену Muon, работающую без изменения кода, которая сохраняет его вычислительную эффективность, заменяя равномерное спектральное отбеливание двухэтапным механизмом Promotion+Suppression, называемым нами высокочастотной итерацией NS. Эта конструкция создает резкий спектральный высокочастотный эффект, фиксируя доминирующие сингулярные значения на 1, подавляя шумные хвостовые компоненты до 0 с контролируемой силой фильтра. Для сохранения предобученной гетерогенности по головам Pion также поддерживает режим работы по головам, который применяет обновления независимо для каждой головы внимания посредством простого изменения формы, без дополнительных затрат. В обучении VLA на наборах LIBERO и LIBERO-Plus Pion стабильно превосходит оба базовых метода как в архитектурах с l₁-регрессией (VLA-Adapter), так и с согласованием потоков (VLANeXt), например, достигая 100% успешности на LIBERO Object после 1500 шагов обучения с VLA-Adapter против 97,0% у Muon и всего 32,2% у AdamW. Преимущество Pion распространяется и на реального робота Franka Research 3 с основой pi₀.₅ в конфигурации DROID для трех задач «схватить и разместить». При дообучении с подкреплением на Qwen3-1,7B/4B с использованием GRPO и GMPO Pion также превосходит AdamW по MATH и GSM8K, в то время как Muon коллапсирует до нуля.
Мы представляем новый подход к высококачественной реконструкции 3D-сцен по многовидовым RGB-изображениям, который тесно связывает реконструкцию с сильным генеративным априорным 3D-приором. Мы формулируем реконструкцию сцены как условную 3D-генерацию на основе набора пространственно-локализованных, перекрывающихся блоков, которые вместе покрывают сцену, масштабируя генерацию на большие пространственные области. Ключевым моментом является то, что мы наследуем точность и полноту современных генеративных моделей форм — мы используем Trellis.2 в качестве примера — и обобщаем их на уровень сцены. Для этого мы предлагаем проекционный механизм обусловливания, который поднимает признаки многовидовых изображений с заданными ракурсами в когерентное 3D-представление, согласованное с генеративной моделью, независимое от порядка обзора и пространственно привязанное к сцене, что обеспечивает высококачественную, согласованную по многим видам сгенерированную геометрию. Это позволяет поднять сильный объектно-уровневый приор Trellis.2 до уровня многовидовой генерации масштаба сцены, создавая достоверные, редактируемые PBR-сеточные реконструкции внутренних помещений. В результате мы получаем высококачественные результаты, превосходящие передовые методы реконструкции на 16%.
Объединенные мультимодальные модели (ОММ) достигают высокой производительности как в понимании, так и в генерации за счет обучения общему латентному пространству, однако часто демонстрируют функциональную несогласованность между этими двумя способностями. Мы наблюдаем, что данная проблема вызвана не отсутствием общих представлений, а отсутствием явного выравнивания между преобразованиями, которые отображают данные в латентное пространство и из него. В результате генерация и повторное кодирование могут следовать несогласованным траекториям, что приводит к семантическому дрейфу при переходах между модальностями. В данной работе мы предлагаем LatentUMM — фреймворк, который формирует расширенное общее латентное пространство для явного выравнивания этих преобразований и улучшения кросс-модальной согласованности. LatentUMM состоит из двух этапов. Во-первых, двойное латентное выравнивание обеспечивает согласованность на уровнях модальности и емкости: кросс-модальное выравнивание использует более сильную модель встраивания для наложения структурированной кросс-модальной семантики, а двойное выравнивание емкости обеспечивает двунаправленную согласованность при генерации и повторном кодировании. Во-вторых, стабилизация латентной динамики повышает устойчивость с помощью стохастических латентных разверток и оптимизации предпочтений, отдавая предпочтение траекториям, которые лучше сохраняют семантическую согласованность. Эксперименты показывают, что LatentUMM последовательно улучшает мультимодальную согласованность в различных архитектурах. Код доступен по адресу: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.
Визуальные геометрические трансформеры стали мощными архитектурами для многовидовой трехмерной реконструкции, обеспечивая совместное прогнозирование нескольких трехмерных атрибутов в прямом потоке. Однако их вычислительная стоимость растет квадратично с длиной входной последовательности из-за слоев глобального внимания внутри этих моделей. Это ограничивает как их масштабируемость, так и эффективность. В данной работе мы решаем эту задачу с помощью простой, но общей стратегии: ограничение количества токенов ключ/значение, с которыми взаимодействует каждый запрос во время глобального внимания. Для достижения эффективного отбора токенов мы предлагаем двухэтапную структуру. Сначала на этапе межкадрового отбора выполняется операция на уровне кадров для идентификации кадров, которые следует сохранить. Затем на этапе внутрикадрового отбора дополнительно отбрасываются более избыточные токены внутри выбранных кадров. Наш анализ подчеркивает преимущество стратегии на основе разнообразия для межкадрового отбора, что обеспечивает широкий охват сцены. Для внутрикадрового отбора мы показываем, что необходимо разрежение с учетом слоя, причем процесс отбора направляется энтропией паттерна глобального внимания. Наш подход обеспечивает превосходный компромисс между скоростью и точностью по сравнению с существующими решениями. Обширные эксперименты показывают, что он ускоряет визуальные геометрические трансформеры более чем на 85% для сцен с 500 изображениями, сохраняя или даже улучшая базовую производительность, что указывает на то, как наша стратегия отбора токенов может играть решающую роль в будущих применениях визуальных геометрических трансформеров. Наш веб-сайт проекта доступен по адресу https://zsh2000.github.io/good-token-hunting.github.io.
Стремительное распространение зрительно-языковых моделей (ЗЯМ) часто преподносится как шаг к унифицированному мультимодальному обнаружению знаний, однако оно опирается на недостаточно проверенное допущение: будто современные ЗЯМ достоверно синтезируют мультимодальные данные. Мы утверждаем, что это зачастую не так, и этот пробел отражает проблему доверия к доминирующей парадигме «зрительный кодировщик – проектор – языковая модель». Вместо извлечения обоснованного знания из визуальных данных современные модели нередко демонстрируют функциональную слепоту, то есть используют сильные языковые априорные предпочтения, чтобы обойти серьёзные узкие места в зрительном представлении. В данной работе мы оспариваем традиционную методологию мультимодального оценивания, основанную на абляции данных или создании новых наборов данных, что приводит к смешению смещений (bias) в данных с архитектурными ограничениями. Мы предлагаем информационно-теоретический отход от этой практики: Протокол трансляции модальностей, предназначенный для количественной оценки того, что мы называем Ценой зрения. Вместо абляции семантических нагрузок мы осуществляем их трансляцию, формулируя три новые метрики — Пошлину (ПоЗ), Проклятие (ПроЗ) и Заблуждение (ЗаЗ) зрения — и получая в итоге Критерий семантической достаточности (КСД). Кроме того, мы выдвигаем гипотезу о Законе расхождения мультимодального масштабирования: по мере того как базовые языковые двигатели достигают беспрецедентных рассуждающих способностей, штраф за ограниченность визуальных знаний может возрастать, а не уменьшаться. Мы утверждаем, что научному сообществу следует отойти от «мультимодального выигрыша» как основной цели оценивания. Возводя КСД из пассивного диагностического ограничения в активный архитектурный проект, мы создаём основу для направления следующего поколения систем искусственного интеллекта к подлинному мультимодальному рассуждению.
Обучение агентов LLM с длинным горизонтом с использованием обучения с подкреплением представляет сложность, поскольку разреженные вознаграждения за результат показывают, успешна ли задача, но не указывают, какие промежуточные действия привели к этому результату или как их следует скорректировать. Современные методы смягчают эту проблему, генерируя вознаграждения или текстовые подсказки на основе сигналов на уровне действий и результатов каждого шага, либо используя само-дистилляцию с учетом обратной связи. Однако генерация обратной связи на каждом шаге неэффективна, когда многие промежуточные шаги уже успешны или нейтральны, а применение обратной связи на фиксированном или неверно выбранном шаге часто не позволяет контролировать действия, способствовавшие неудаче. Для устранения этого разрыва мы предлагаем HINT-SD — целевую структуру само-дистилляции, которая использует ретроспективный анализ всей траектории для выбора действий, релевантных для неудачи, и применяет дистилляцию с учетом обратной связи только на целевых промежутках действий. Эксперименты на BFCL v3 и AppWorld показывают, что наш метод превосходит базовый метод с плотной обратной связью на каждом шаге на величину до 18,80 процентов, одновременно достигая в 2,26 раза меньшего времени на шаг обучения, что позволяет предположить, что выбор места для дистилляции является ключевым фактором как для эффективного, так и для экономичного обучения агентов с длинным горизонтом.
Большие языковые модели (БЯМ) продемонстрировали впечатляющие способности к рассуждению в широком спектре задач, однако загрязнение данных подрывает объективную оценку этих способностей. Эта проблема усугубляется недобросовестными разработчиками моделей, которые применяют уклончивые, или непрямые, стратегии загрязнения, например, перефразирование эталонных данных, чтобы обойти существующие методы обнаружения и искусственно повысить свои показатели в рейтингах. Современные подходы с трудом позволяют надежно выявлять такое скрытое загрязнение. В данной работе мы выявляем критически важный феномен: генерируемые моделью шаги рассуждения активно маскируют ее скрытое запоминание. Вдохновленные этим, мы предлагаем Zero-CoT-зонд (ZCP) — новый метод обнаружения типа «черный ящик», который намеренно усекает весь процесс цепочки рассуждений (Chain-of-Thought, CoT), чтобы выявить скрытые сокращенные пути. Чтобы дополнительно отделить запоминание от собственных способностей модели решать задачи, ZCP сравнивает производительность модели в режиме zero-CoT на исходном эталонном наборе данных с эталонным набором данных, подвергнутым изоморфным возмущениям. Кроме того, мы вводим показатель уверенности в загрязнении (Contamination Confidence) — метрику, которая количественно оценивает как вероятность, так и серьезность загрязнения, выходя за рамки простой бинарной классификации. Обширные эксперименты как на ранее выявленных загрязненных моделях, так и на специально дообученных загрязненных моделях показывают, что ZCP надежно обнаруживает как прямое, так и уклончивое загрязнение данных. Код для ZCP доступен по адресу https://github.com/Yifan-Lan/zero-cot-probe.
Масштабирование вычислений во время тестирования за счет итеративного обновления скрытого состояния стало мощной парадигмой для рассуждения. Тем не менее внутренние механизмы, позволяющие таким итеративным моделям обобщать за пределы запомненных паттернов, остаются неясными. Мы выдвигаем гипотезу, что обобщаемое рассуждение возникает из обучения обусловленным задачей аттракторам: скрытым динамическим системам, чьи устойчивые неподвижные точки соответствуют допустимым решениям. Мы формализуем этот процесс через Равновесные Резонеры (Equilibrium Reasoners, EqR), которые обеспечивают масштабирование на этапе тестирования без внешних верификаторов или специфичных для задачи априорных знаний. EqR масштабирует внутреннюю динамику по двум осям: глубине, путем выполнения большего числа итераций, и широте, путем агрегирования стохастических траекторий из нескольких начальных состояний. Эмпирически, прирост от масштабирования вычислений во время тестирования тесно связан с более сильной сходимостью к аттракторам, согласованным с решением. Эта перспектива аттракторов позволяет нейронным сетям адаптивно распределять вычислительные ресурсы во время тестирования в зависимости от сложности задачи. В то время как простые случаи сходятся за 1–5 шагов итерации, более сложные случаи выигрывают от значительного масштабирования вычислений. Разворачивая до эквивалента 40 000 слоев, масштабируемое скрытое рассуждение повышает точность с 2,6% для моделей прямого распространения до более чем 99% на наборе данных Sudoku-Extreme. Эти результаты свидетельствуют о том, что изученные ландшафты аттракторов служат полезной механистической оптикой для понимания масштабируемого рассуждения в итеративных скрытых моделях.
Реконструкция МРТ является изначально некорректной обратной задачей, поскольку неполные измерения допускают множество правдоподобных решений. Эта неоднозначность становится более выраженной при высоком ускорении, где непрерывные предикторы в пиксельной области склонны усреднять возможные реконструкции и подавлять высокочастотную анатомию. Мы решаем это ограничение, перенося реконструкцию в дискретное многомасштабное латентное пространство и формулируя её как авторегрессионное предсказание следующего масштаба ускорения. Используя дискретные априорные распределения, доказавшие свою эффективность в визуальном авторегрессионном моделировании, наш метод ограничивает решение компактными последовательностями токенов из кодовой книги, что позволяет получать четкие реконструкции даже на основе чрезвычайно разреженных измерений. Эта дискретная авторегрессионная формулировка также естественным образом согласуется с современными методами пост-тренировки больших языковых моделей. Основываясь на этом наблюдении, мы вводим внутриполитическую дистилляцию привилегированной информации для визуального авторегрессионного моделирования, где учителю предоставляется только привилегированный контекст, недоступный при инференсе — в нашем случае полностью собранные данные — и он контролирует студента, обучаемого на собственных развертываниях, что приводит к устойчивому улучшению реконструкции. Посредством обширных экспериментов на эталоне fastMRI мы показываем, что наш подход обеспечивает улучшенную производительность реконструкции для различных схем сэмплирования при экстремальной субдискретизации. Веб-сайт проекта: https://yilmazkorkmaz1.github.io/discrete-mri-reconstruction-opd/{here}.