Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Native Parallel Reasoner (NPR) — фреймворк без учителя, который позволяет большим языковым моделям (LLM) самостоятельно развивать подлинные способности к параллельным рассуждениям. NPR преобразует модель от последовательной эмуляции к нативному параллельному познанию за счет трех ключевых инноваций: 1) самодистиллируемая прогрессивная парадигма обучения, которая переходит от «холодного старта» с обнаружением формата к строгим топологическим ограничениям без внешнего контроля; 2) новый алгоритм Parallel-Aware Policy Optimization (PAPO), который оптимизирует политики ветвления непосредственно в графе исполнения, позволяя модели изучать адаптивную декомпозицию методом проб и ошибок; и 3) надежный механизм NPR, который рефакторит управление памятью и потоком управления SGLang для обеспечения стабильного крупномасштабного параллельного RL-обучения. На восьми бенчмарках рассуждений NPR, обученная на Qwen3-4B, демонстрирует прирост производительности до 24,5% и ускорение вывода до 4,6 раз. В отличие от предыдущих базовых методов, которые часто откатываются к авторегрессивному декодированию, NPR демонстрирует 100% подлинное параллельное исполнение, устанавливая новый стандарт для саморазвивающегося, эффективного и масштабируемого агентного мышления.
Вращательные позиционные эмбеддинги (RoPE) стали стандартом для кодирования порядка последовательностей в больших языковых моделях (LLM) путем применения вращений к векторам запросов и ключей в комплексной плоскости. Однако стандартные реализации используют только вещественную компоненту комплексного скалярного произведения для вычисления оценок внимания. Это упрощение отбрасывает мнимую компоненту, которая содержит ценную фазовую информацию, что приводит к потенциальной потере реляционных деталей, важных для моделирования длинных контекстных зависимостей. В данной статье мы предлагаем расширение, которое повторно включает эту отброшенную мнимую компоненту. Наш метод использует полное комплексное представление для создания двухкомпонентной оценки внимания. Теоретически и эмпирически мы демонстрируем, что данный подход улучшает моделирование длинных контекстных зависимостей за счет сохранения большего количества позиционной информации. Кроме того, оценки на наборе бенчмарков языкового моделирования с длинным контекстом показывают, что наш метод стабильно улучшает производительность по сравнению со стандартным RoPE, причем преимущества становятся более значительными с увеличением длины контекста. Код доступен по адресу https://github.com/OpenMOSS/rope_pp.
Существующие методы редактирования видео сталкиваются с фундаментальным компромиссом: экспертные модели обеспечивают высокую точность, но опираются на специфичные для задачи априорные данные, такие как маски, что препятствует их унификации; напротив, унифицированные модели с контекстным обучением во временной области не требуют масок, но лишены явных пространственных подсказок, что приводит к слабому сопоставлению инструкций с областями и неточной локализации. Для разрешения этого противоречия мы предлагаем VideoCoF — новый подход «Цепочка кадров» (Chain-of-Frames), вдохновленный логикой «Цепочки рассуждений» (Chain-of-Thought). VideoCoF реализует процедуру «увидеть, осмыслить, затем редактировать», заставляя диффузионную модель видео сначала прогнозировать токены рассуждений (латентные представления областей редактирования) перед генерацией целевых видео-токенов. Этот явный шаг рассуждений устраняет необходимость в предоставлении пользователем масок, одновременно достигая точного соответствия инструкций областям и прецизионного редактирования видео. Кроме того, мы представляем стратегию выравнивания RoPE, которая использует эти токены рассуждений для обеспечения согласованности движения и позволяет экстраполировать длину видео за пределы длительности, использованной при обучении. Мы демонстрируем, что при минимальных затратах на данные — всего 50 тысяч пар видео — VideoCoF достигает наилучших результатов на VideoCoF-Bench, подтверждая эффективность нашего подхода. Наш код, веса модели и данные доступны по адресу https://github.com/knightyxp/VideoCoF.
Воксельная графика — это самобытный стиль, широко используемый в играх и цифровых медиа, однако автоматизированная генерация из 3D-сеток остаётся сложной задачей из-за противоречивых требований геометрической абстракции, сохранения семантики и дискретной цветовой согласованности. Существующие методы либо чрезмерно упрощают геометрию, либо не достигают пиксельной точности и ограниченной палитрой эстетики воксельного искусства. Мы представляем Voxify3D — дифференцируемую двухэтапную систему, связывающую оптимизацию 3D-сетки с контролем на основе 2D-пиксельной графики. Ключевая инновация заключается в синергетической интеграции трёх компонентов: (1) ортографический контроль пиксельной графики, устраняющий перспективные искажения для точного соответствия вокселей и пикселей; (2) патч-ориентированное выравнивание CLIP, сохраняющее семантику на уровнях дискретизации; (3) палитрно-ограниченная квантизация Гамбела-Софтмакса, обеспечивающая дифференцируемую оптимизацию в дискретных цветовых пространствах с управляемыми стратегиями палитр. Данная интеграция решает фундаментальные проблемы: сохранение семантики при экстремальной дискретизации, достижение эстетики пиксельной графики через объёмный рендеринг и сквозная дискретная оптимизация. Эксперименты демонстрируют превосходные результаты (37.12 CLIP-IQA, 77.90% предпочтений пользователей) для разнообразных персонажей и управляемой абстракции (2-8 цветов, разрешения 20x-50x). Страница проекта: https://yichuanh.github.io/Voxify-3D/
Генерация видео по ссылке (Reference-to-video, R2V) направлена на синтез видеороликов, соответствующих текстовому описанию, с сохранением идентичности объекта из референсных изображений. Однако современные методы R2V ограничены зависимостью от явных троек «референсное изображение–видео–текст», создание которых требует значительных затрат и сложно масштабируется. Мы обходим это узкое место, представляя Saber — масштабируемую zero-shot систему, не требующую явных данных R2V. Обучаясь исключительно на парах «видео–текст», Saber использует стратегию маскированного обучения и специализированную архитектуру модели на основе механизма внимания для усвоения идентично-согласованных и референсно-ориентированных представлений. Дополнительно интегрированы методы маскирующей аугментации для снижения артефактов типа «копирование-вставка», характерных для генерации видео по ссылке. Более того, Saber демонстрирует выдающуюся способность к обобщению при различном количестве референсов и превосходит по производительности на benchmark OpenS2V-Eval методы, обученные с данными R2V.
Многоагентные системы на основе больших языковых моделей (LLM) сложно отлаживать, поскольку сбои часто возникают из-за длинных, разветвленных цепочек взаимодействий. Существующая практика предполагает использование LLM для локализации сбоев на основе логов, приписывая ошибки конкретному агенту и шагу. Однако у этой парадигмы есть два ключевых ограничения: (i) отладка только по логам не включает валидацию, порождая непроверенные гипотезы, и (ii) приписывание сбоя одному шагу или агенту часто является некорректно поставленной задачей, поскольку, как мы выяснили, несколько различных вмешательств могут независимо исправить провалившуюся задачу. Чтобы устранить первое ограничение, мы представляем DoVer — фреймворк для отладки, управляемой вмешательствами, который дополняет генерацию гипотез активной проверкой с помощью целевых вмешательств (например, редактирования сообщений, изменения планов). Для второго ограничения, вместо оценки точности атрибуции, мы фокусируемся на измерении того, устраняет ли система сбой или достигает количественного прогресса в успешном выполнении задачи, что отражает более ориентированный на результат взгляд на отладку. В рамках агентского фреймворка Magnetic-One, на наборах данных, производных от GAIA и AssistantBench, DoVer превращает 18–28% неудачных попыток в успешные, достигает до 16% прогресса по ключевым этапам, а также подтверждает или опровергает 30–60% гипотез о сбоях. DoVer также эффективно работает на другом наборе данных (GSMPlus) и в другом агентском фреймворке (AG2), где он восстанавливает 49% неудачных попыток. Эти результаты подчеркивают вмешательство как практический механизм повышения надежности агентских систем и открывают возможности для создания более robust и масштабируемых методов отладки многоагентных систем на основе LLM. Веб-сайт проекта и код будут доступны по адресу https://aka.ms/DoVer.
Мы исследуем редактирование эгоцентричных видео по инструкциям для интерактивных AR-приложений. Хотя современные редакторы на базе ИИ хорошо справляются с видео от третьего лица, эгоцентричные съёмки представляют уникальные проблемы — включая быстрое эгодвижение и частые взаимодействия «рука–объект», — которые создают значительный доменный разрыв. Более того, существующие офлайн-пайплайны редактирования страдают от высокой задержки, что ограничивает интерактивность в реальном времени. Для решения этих проблем мы представляем комплексную экосистему редактирования эгоцентричных видео. Во-первых, мы создали EgoEditData — тщательно спроектированный и вручную отобранный датасет, специально предназначенный для сценариев эгоцентричного редактирования, с богатыми взаимодействиями «рука–объект» при явном сохранении рук. Во-вторых, мы разработали EgoEdit — редактор эгоцентричных видео, следующий инструкциям и поддерживающий потоковый вывод в реальном времени на одной GPU. Наконец, мы представляем EgoEditBench — набор для оценки, ориентированный на соответствие инструкциям, сохранение рук и взаимодействий, а также временную стабильность при эгодвижении. EgoEdit демонстрирует временно стабильные результаты, точно следующие инструкциям, с интерактивной задержкой как в эгоцентричных, так и в общих задачах редактирования. Метод показывает значительный прогресс в бенчмарках эгоцентричного редактирования — где существующие методы испытывают трудности — сохраняя при этом производительность, сопоставимую с сильнейшими базовыми методами в общих задачах редактирования. EgoEditData и EgoEditBench будут опубликованы для исследовательского сообщества. См. наш веб-сайт: https://snap-research.github.io/EgoEdit.
Современные методы обучения с подкреплением (RL) демонстрируют впечатляющее улучшение способностей к рассуждению у языковых моделей, однако остается неясным, действительно ли дообучение расширяет их решающие возможности за пределы тех, что были усвоены на этапе предварительного обучения. Ключевая проблема заключается в отсутствии контроля в современных обучающих конвейерах: корпуса для масштабного предварительного обучения непрозрачны, процесс промежуточного обучения часто недостаточно изучен, а цели RL сложным образом взаимодействуют с априорными знаниями модели. Чтобы разрешить эту неопределенность, мы разработали полностью контролируемую экспериментальную систему, которая изолирует причинно-следственные вклады предварительного обучения, промежуточного обучения и RL-дообучения. Наш подход использует синтетические задачи на рассуждение с явными атомарными операциями, парсируемыми пошаговыми траекториями рассуждений и системным манипулированием распределениями данных для обучения. Мы оцениваем модели по двум осям: экстраполяционной обобщающей способности к более сложным композициям и контекстуальной обобщающей способности across различным поверхностным контекстам. Используя эту систему, мы примиряем противоречивые взгляды на эффективность RL. Мы показываем, что: 1) RL приводит к реальному росту способностей (pass@128) только тогда, когда предварительное обучение оставляет достаточный запас для улучшения и когда данные для RL нацелены на "грань компетенции" модели — задачи на границе возможностей, которые сложны, но еще не недостижимы. 2) Контекстуальное обобщение требует минимального, но достаточного воздействия на этапе предварительного обучения, после чего RL может надежно его переносить. 3) Промежуточное обучение при фиксированных вычислительных ресурсах значительно повышает производительность по сравнению с использованием только RL, что демонстрирует его центральную, но недостаточно изученную роль в обучающих конвейерах. 4) Вознаграждения на уровне процесса снижают "взлом" функции вознаграждения и повышают достоверность рассуждений. В совокупности эти результаты проясняют взаимодействие между предварительным обучением, промежуточным обучением и RL, закладывая основу для понимания и улучшения стратегий обучения языковых моделей рассуждениям.
Большинство визуальных генеративных моделей сжимают изображения в латентное пространство перед применением диффузионного или авторегрессионного моделирования. Однако существующие подходы, такие как VAEs и энкодеры, согласованные с фундаментальными моделями, неявно ограничивают латентное пространство без явного формирования его распределения, что делает неясным, какие типы распределений оптимальны для моделирования. Мы представляем VAE с согласованием распределений (DMVAE), который явно выравнивает латентное распределение энкодера с произвольным эталонным распределением посредством ограничения на соответствие распределений. Это обобщает гауссовский априорный закон традиционных VAEs, позволяя согласование с распределениями, полученными из самоконтролируемых признаков, диффузионного шума или других априорных распределений. С помощью DMVAE мы можем систематически исследовать, какие латентные распределения более благоприятны для моделирования, и мы обнаруживаем, что распределения, полученные методами самоконтролируемого обучения, обеспечивают превосходный баланс между точностью реконструкции и эффективностью моделирования, достигая gFID = 3.2 на ImageNet всего за 64 эпохи обучения. Наши результаты позволяют предположить, что выбор подходящей структуры латентного распределения (достигаемой через согласование на уровне распределений), а не reliance на фиксированные априорные законы, является ключом к сокращению разрыва между легко моделируемыми латентными переменными и синтезом изображений с высокой точностью. Код доступен по адресу https://github.com/sen-ye/dmvae.
Люди воспринимают не только сходство атрибутов — мы также видим сходство отношений. Яблоко похоже на персик, потому что оба являются красноватыми фруктами, но Земля также похожа на персик: ее кора, мантия и ядро соответствуют кожице, мякоти и косточке персика. Способность воспринимать и распознавать реляционное сходство, по мнению когнитивных ученых, является тем, что отличает человека от других видов. Тем не менее, все широко используемые сегодня метрики визуального сходства (например, LPIPS, CLIP, DINO) сосредоточены исключительно на перцептивном сходстве атрибутов и не улавливают богатые, зачастую неожиданные реляционные сходства, которые воспринимают люди. Как мы можем выйти за пределы видимого содержания изображения, чтобы уловить его реляционные свойства? Как мы можем сблизить в пространстве представлений изображения с одинаковой реляционной логикой? Чтобы ответить на эти вопросы, мы сначала формулируем реляционное сходство изображений как измеримую проблему: два изображения реляционно подобны, когда их внутренние отношения или функции среди визуальных элементов соответствуют друг другу, даже если их визуальные атрибуты различаются. Затем мы создаем набор данных из 114 тыс. изображений с подписями, в которых подписи анонимизированы — они описывают лежащую в основе реляционную логику сцены, а не ее поверхностное содержание. Используя этот набор данных, мы дообучаем визуально-языковую модель для измерения реляционного сходства между изображениями. Эта модель служит первым шагом на пути к соединению изображений на основе их глубинной реляционной структуры, а не видимого внешнего вида. Наше исследование показывает, что, хотя реляционное сходство имеет множество практических применений, существующие модели сходства изображений не способны его уловить — что выявляет критический пробел в области визуальных вычислений.
Мы предлагаем MVP-трансформер (Multi-view Pyramid Transformer) — масштабируемую трансформерную архитектуру для многовидовых данных, которая напрямую реконструирует крупные 3D-сцены по десяткам или сотням изображений за один прямой проход. Основываясь на концепции «широкий охват для целостности, детальный взгляд для точности», MVP построен на двух ключевых принципах: 1) локально-глобальная междвидовая иерархия, постепенно расширяющая перспективу модели от локальных видов к группам и, наконец, ко всей сцене; 2) детально-укрупненная внутривидовая иерархия, начинающаяся с подробных пространственных представлений и последовательно агрегирующая их в компактные, информационно-плотные токены. Эта двойная иерархия обеспечивает как вычислительную эффективность, так и репрезентативную насыщенность, позволяя быстро реконструировать крупные сложные сцены. Мы проверили работу MVP на различных наборах данных и показали, что в сочетании с 3D Gaussian Splatting в качестве базового 3D-представления он достигает передового качества обобщающей реконструкции, сохраняя высокую эффективность и масштабируемость для широкого спектра конфигураций видов.
Мы представляем LongCat-Image — новаторскую открытую и двуязычную (китайско-английскую) базовую модель для генерации изображений, созданную для решения ключевых проблем современных ведущих моделей: многозначного рендеринга текста, фотореалистичности, эффективности развертывания и доступности для разработчиков. 1) Это достигнуто за счет строгой стратегии курации данных на этапах предварительного обучения, промежуточного обучения и SFT, дополненной согласованным использованием специально отобранных моделей вознаграждения на фазе RL. Данная стратегия устанавливает модель как новое состояние искусства (SOTA), обеспечивая превосходные возможности рендеринга текста, выдающийся фотореализм и значительное улучшение эстетического качества. 2) Особенно важно, что модель задает новый отраслевой стандарт для рендеринга китайских иероглифов. Поддерживая даже сложные и редкие символы, она превосходит как основные открытые, так и коммерческие решения по охвату, одновременно достигая высочайшей точности. 3) Модель демонстрирует выдающуюся эффективность благодаря компактной архитектуре. С основным диффузионным модулем всего в 6B параметров она значительно меньше, чем распространенные в области архитектуры Mixture-of-Experts (MoE) объемом почти 20B параметров и более. Это обеспечивает минимальное использование VRAM и быстрое выполнение выводов, существенно снижая затраты на развертывание. Помимо генерации, LongCat-Image также превосходно справляется с редактированием изображений, достигая результатов SOTA на стандартных бенчмарках с лучшей согласованностью редактирования по сравнению с другими открытыми работами. 4) Чтобы в полной мере расширить возможности сообщества, мы создали наиболее комплексную на сегодняшний день экосистему с открытым исходным кодом. Мы публикуем не только несколько версий модели для задач «текст-в-изображение» и редактирования изображений, включая контрольные точки после этапов промежуточного и пост-тренинга, но и полный инструментарий учебного процесса. Мы уверены, что открытость LongCat-Image окажет мощную поддержку разработчикам и исследователям, расширяя границы создания визуального контента.
Современные модели генерации видео демонстрируют впечатляющие возможности синтеза, но остаются ограниченными условиями одного типа данных, что сужает их целостное понимание мира. Это обусловлено недостаточным межмодальным взаимодействием и ограниченным разнообразием модальностей для комплексного представления знаний о мире. Для преодоления этих ограничений мы представляем UnityVideo — унифицированную архитектуру для генерации видео с учетом контекста реального мира, которая совместно обучается на множестве модальностей (маски сегментации, скелеты человека, DensePose, оптические потоки и карты глубины) и тренировочных парадигм. Наш подход включает два ключевых компонента: (1) динамическое добавление шума для унификации разнородных тренировочных парадигм и (2) коммутатор модальностей с контекстным обучающим модулем, обеспечивающий унифицированную обработку через модульные параметры и контекстное обучение. Мы представляем крупномасштабный унифицированный датасет с 1,3 млн примеров. Благодаря совместной оптимизации UnityVideo ускоряет сходимость и значительно улучшает zero-shot обобщение на неизвестные данные. Мы демонстрируем, что UnityVideo достигает превосходного качества видео, согласованности и лучшего соответствия физическим ограничениям реального мира. Код и данные доступны по адресу: https://github.com/dvlab-research/UnityVideo
Крупные языковые модели с поддержкой визуального восприятия (VLMs) эффективно преодолевают модальный разрыв благодаря масштабному предварительному обучению, приобретая сложные визуальные представления, согласованные с языком. Однако остается малоизученным вопрос о том, обладают ли эти представления, оптимизированные для задач мультимодального понимания, внутренним потенциалом для визуальной генерации. В данной статье мы предлагаем VGT (Visual Generation Tuning) — новую парадигму, предназначенную для активации скрытых возможностей визуальной генерации в любых языковых моделях с поддержкой визуального восприятия. Путем эффективной настройки визуальной генерации в хорошо предобученных VLMs мы существенно снижаем затраты на согласование и ускоряем сходимость авторегрессионного моделирования в непрерывном пространстве (в 20 раз). В частности, мы отказываемся от запутанных VAEs на уровне пикселей, разработанных для диффузионных трансформеров, и формулируем VGT-AE через согласование семантических энкодеров из предобученных VLMs с латентными представлениями пиксельных декодеров. В задачах реконструкции изображений мы достигаем показателей 26.67 PSNR и 0.50 rFID при степени сжатия 28x, превосходя специализированные VAEs; в задачах визуальной генерации мы достигаем наилучших результатов среди авторегрессионных моделей — 0.77 на GenEval и 78.73 на DPG-Bench. Кроме того, предложенный нами VGT демонстрирует значительный потенциал масштабирования и универсальность для наделения любых VLMs, обученных для мультимодального понимания, возможностями визуальной генерации, что открывает новые пути для исследования моделей следующего поколения — унифицированных мультимодальных фундаментальных моделей. Модели и код доступны по адресу https://github.com/hustvl/VGT.
Модели пошагового вознаграждения (PRM), обеспечивающие плотную обратную связь на уровне шагов, показали перспективность для обучения с подкреплением, однако их широкое внедрение ограничивается необходимостью дорогостоящих пошаговых разметок или эталонных данных. Мы предлагаем SPARK: трехэтапную структуру, на первом этапе которой генеративная модель создает разнообразные решения, а модель-верификатор оценивает их с помощью параллельного (самосогласованность) и последовательного (метакритика) масштабирования. На втором этапе мы используем результаты верификации в качестве синтетических данных для обучения для тонкой настройки генеративных моделей пошагового вознаграждения, которые впоследствии служат сигналами вознаграждения при обучении. Мы показываем, что агрегация множественных независимых верификаций на уровне шагов позволяет создать данные для обучения моделей пошагового вознаграждения, превосходящие по качеству обучение с эталонными результатами, достигая 67.5 F1 на ProcessBench (бенчмарке для выявления ошибочных шагов в математических рассуждениях) против 66.4 для обучения с эталонами и 61.9 для GPT-4o. На заключительном этапе мы применяем нашу генеративную PRM с верификацией цепочки рассуждений (PRM-CoT) в качестве модели вознаграждения в экспериментах по обучению с подкреплением на задачах математического рассуждения и вводим ограничения на формат вывода для предотвращения взлома вознаграждения. Используя Qwen2.5-Math-7B, мы достигаем средней точности 47.4% на шести бенчмарках математических рассуждений, превосходя метод RLVR на эталонных данных (43.9%). Наша работа позволяет проводить обучение с подкреплением без эталонов, превосходящее методы с их использованием, открывая новые возможности для областей, где отсутствуют проверяемые ответы или доступные эталонные данные.
Визуальное рассуждение с интеграцией инструментов (TiVR) продемонстрировало значительный потенциал в решении мультимодальных задач. Однако существующие парадигмы TiVR в основном сосредоточены на интеграции различных визуальных инструментов с помощью обучения с подкреплением, пренебрегая разработкой эффективных механизмов реакции на ненадежные или ошибочные результаты работы инструментов. Это ограничение особенно заметно в задачах референции и локализации, где неточные прогнозы инструментов детекции часто вводят модели TiVR в заблуждение, приводя к галлюцинациям в рассуждениях. Для решения этой проблемы мы предлагаем VG-Refiner — первую структуру, направленную на уточняющую референцию и обоснованное рассуждение с помощью инструментов. Технически мы вводим двухэтапный механизм «обдумывание-переосмысление», который позволяет модели явно анализировать и реагировать на обратную связь от инструментов, а также механизм вознаграждения за уточнение, стимулирующий эффективную коррекцию при неудовлетворительных результатах работы инструментов. Дополнительно мы предлагаем две новые метрики и устанавливаем объективные протоколы оценки для систематического измерения способности к уточнению у современных моделей. Мы используем небольшой объем специфичных для задачи данных для повышения способности VG-Refiner к уточнению, достигая значительного улучшения точности и корректирующей способности на бенчмарках референции и обоснованного рассуждения при сохранении общих возможностей предварительно обученной модели.
Мы представляем ReCamDriving — чисто визуальную систему генерации видео по новым траекториям с управлением камерой. В то время как ремонтно-ориентированные методы не справляются с восстановлением сложных артефактов, а подходы на основе LiDAR полагаются на разреженные и неполные данные, ReCamDriving использует плотные и сценарно-полные рендеры 3DGS для явного геометрического руководства, достигая точного управления камерой. Чтобы смягчить переобучение на поведение восстановления при условии использования рендеров 3DGS, ReCamDriving применяет двухэтапную парадигму обучения: на первом этапе используются позы камеры для грубого управления, а на втором этапе включаются рендеры 3GDS для детального руководства по точке обзора и геометрии. Кроме того, мы представляем стратегию курации данных на основе 3DGS для кросс-траекторного устранения разрыва между обучением и тестированием в паттернах трансформации камеры, обеспечивая масштабируемый контроль по множеству траекторий на основе моноскопических видео. Основываясь на этой стратегии, мы создали набор данных ParaDrive, содержащий более 110 тысяч пар видео с параллельными траекториями. Многочисленные эксперименты демонстрируют, что ReCamDriving достигает передового уровня управляемости камерой и структурной согласованности.
Последние достижения в области мультимодальных больших языковых моделей (MLLM) обеспечили единые возможности восприятия и логического вывода, однако эти системы остаются крайне уязвимыми к джейлбрек-атакам, которые обходят защитные механизмы и провоцируют вредоносное поведение. Существующие бенчмарки, такие как JailBreakV-28K, MM-SafetyBench и HADES, дают ценную информацию о мультимодальных уязвимостях, но обычно сосредоточены на ограниченных сценариях атак, не имеют стандартизированной оценки защитных механизмов и не предлагают единого воспроизводимого инструментария. Для устранения этих пробелов мы представляем OmniSafeBench-MM — комплексный инструментарий для оценки мультимодальных джейлбрек-атак и защит. OmniSafeBench-MM интегрирует 13 репрезентативных методов атак, 15 стратегий защиты и разнообразный набор данных, охватывающий 9 основных категорий рисков и 50 детализированных подкатегорий, структурированных по консультативным, императивным и декларативным типам запросов для отражения реальных намерений пользователей. Помимо охвата данных, платформа устанавливает трехмерный протокол оценки, измеряющий (1) вредоносность, дифференцированную по детализированной многуровневой шкале — от низкоуimpactного индивидуального вреда до катастрофических угроз обществу, (2) соответствие ответов намерениям, заложенным в запросах, и (3) уровень детализации ответов, что позволяет проводить тонкий анализ баланса между безопасностью и полезностью. Мы провели масштабные эксперименты на 10 открытых и 8 проприетарных MLLM, чтобы выявить их уязвимость к мультимодальным джейлбрек-атакам. Объединяя данные, методологию и оценку в открытой воспроизводимой платформе, OmniSafeBench-MM создает стандартизированную основу для будущих исследований. Код доступен по адресу https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
Несмотря на обнадеживающий прогресс в генерации изображений на основе заданного объекта, современные модели часто отклоняются от эталонных идентичностей и испытывают трудности в сложных сценах с несколькими объектами. Для решения этой проблемы мы представляем OpenSubject — масштабный корпус, созданный на основе видео, содержащий 2,5 млн образцов и 4,35 млн изображений для генерации и манипуляций на основе объекта. Набор данных построен с помощью четырехэтапного конвейера, использующего априорные данные об идентичности из межкадрового анализа. (i) Курирование видео. Мы применяем фильтрацию по разрешению и эстетическим критериям для получения высококачественных клипов. (ii) Межкадровое выделение и парное сопоставление объектов. Мы используем консенсус категорий на основе моделей «визуальный язык» (VLM), локальное позиционирование и парное сопоставление с учетом разнообразия для выбора пар изображений. (iii) Синтез эталонных изображений с сохранением идентичности. Мы вводим расширение изображения с управлением через карты сегментации для синтеза входных изображений для генерации на основе объекта и восстановление изображения с управлением через ограничивающие рамки для генерации входных изображений для манипуляций на основе объекта, вместе с геометрически-осознанными аугментациями и эрозией нерегулярных границ. (iv) Проверка и подписание. Мы используем VLM для валидации синтезированных образцов, повторно синтезируем неудачные образцы на основе этапа (iii), а затем создаем короткие и длинные подписи. Кроме того, мы представляем эталонный набор тестов, охватывающий генерацию и манипуляции на основе объекта, и затем оцениваем верность идентичности, соответствие запросу, согласованность манипуляций и согласованность фона с помощью VLM-арбитра. Многочисленные эксперименты показывают, что обучение на OpenSubject улучшает производительность генерации и манипуляций, особенно в сложных сценах.
Регрессия на основе декодирования, которая переформулирует задачу регрессии как задачу генерации последовательностей, появилась как перспективная парадигма применения больших языковых моделей для численного прогнозирования. Однако её прогресс сдерживается несоответствием между дискретными поточковыми целевыми функциями (например, перекрёстной энтропией) и непрерывными численными значениями. Существующие подходы, опирающиеся на поточковые ограничения, часто не способны уловить глобальную величину целевого значения, что ограничивает их точность и способность к обобщению. В данной статье мы предлагаем раскрыть потенциал регрессии на основе декодирования с помощью обучения с подкреплением. Мы формулируем процесс генерации как марковский процесс принятия решений, используя вознаграждения на уровне последовательности для обеспечения глобальной численной согласованности. Многочисленные эксперименты по табличной регрессии и регрессии метрик кода демонстрируют, что наш метод (в частности, с ReMax и GRPO) стабильно превосходит как передовые поточковые базовые методы, так и традиционные регрессионные головки, показывая превосходство введения сигналов на уровне последовательности. Наш анализ дополнительно раскрывает, что обучение с подкреплением значительно повышает эффективность выборки и прогнозную точность, утверждая регрессию на основе декодирования как надёжную и точную парадигму для универсального численного прогнозирования.
Визуальные генеративные модели (например, диффузионные модели) обычно работают в сжатых латентных пространствах для балансировки эффективности обучения и качества сэмплов. Параллельно растет интерес к использованию высококачественных предобученных визуальных представлений, либо путем их выравнивания внутри VAEs, либо непосредственно в генеративной модели. Однако адаптация таких представлений остается сложной задачей из-за фундаментального несоответствия между ориентированными на понимание признаками и генеративно-дружественными латентными пространствами. Кодировщики представлений выигрывают от высокоразмерных латентных переменных, которые захватывают разнообразные гипотезы для замаскированных областей, тогда как генеративные модели предпочитают низкоразмерные латентные переменные, которые должны достоверно сохранять вносимый шум. Это несоответствие привело к тому, что предыдущие работы полагались на сложные функции потерь и архитектуры. В данной работе мы предлагаем FAE (Feature Auto-Encoder), простую, но эффективную структуру, которая адаптирует предобученные визуальные представления в низкоразмерные латентные переменные, пригодные для генерации, используя всего один слой внимания, при этом сохраняя достаточную информацию как для реконструкции, так и для понимания. Ключевая идея заключается в соединении двух отдельных глубоких декодеров: один обучен реконструировать исходное пространство признаков, а второй принимает реконструированные признаки в качестве входных данных для генерации изображений. FAE является универсальной; она может быть реализована с помощью различных самоконтролируемых кодировщиков (например, DINO, SigLIP) и подключена к двум различным семействам генеративных моделей: диффузионным моделям и нормализующим потокам. На бенчмарках с условиями по классам и для текстового описания в изображение FAE демонстрирует высокую производительность. Например, на ImageNet 256x256 наша диффузионная модель с CFG достигает почти наилучшего показателя FID, равного 1.29 (800 эпох) и 1.70 (80 эпох). Без CFG FAE достигает наилучшего показателя FID, равного 1.48 (800 эпох) и 2.08 (80 эпох), демонстрируя как высокое качество, так и быстрое обучение.
Мы представляем GRAPE (Group RepresentAtional Position Encoding) — унифицированную систему позиционного кодирования, основанную на действиях групп. GRAPE объединяет два семейства механизмов: (i) мультипликативные вращения (Мультипликативный GRAPE) в SO(d) и (ii) аддитивные смещения логитов (Аддитивный GRAPE), возникающие из унипотентных действий в общей линейной группе GL. В Мультипликативном GRAPE позиция n в Z (или t в R) действует как G(n)=exp(n,ω,L) с кососимметрическим генератором ранга 2 L в R^{d×d}, порождая относительное, композиционное, сохраняющее норму отображение с матричной экспонентой в замкнутой форме. RoPE точно восстанавливается, когда d/2 плоскостей являются каноническими координатными парами с логарифмически-равномерным спектром. Обучаемые коммутирующие подпространства и компактные некоммутирующие смещения строго расширяют эту геометрию для захвата связи признаков между подпространствами со стоимостью O(d) и O(r d) на голову соответственно. В Аддитивном GRAPE аддитивные логиты возникают как унипотентные действия ранга 1 (или низкого ранга), точно воспроизводя ALiBi и Forgetting Transformer (FoX) как частные случаи, сохраняя точный относительный закон и возможность потокового кэширования. В целом, GRAPE предоставляет принципиальное пространство проектирования позиционной геометрии для моделей с длинным контекстом, включая RoPE и ALiBi как частные случаи. Страница проекта: https://github.com/model-architectures/GRAPE.
Последние достижения в области авторегрессионных (AR) генеративных моделей привели к созданию все более мощных систем для синтеза медиаданных. Среди них прогнозирование в мультимасштабной парадигме стало популярным подходом, в рамках которого модели генерируют изображения по принципу «от грубого к точному». Однако пошаговые AR-модели страдают от ошибки экспозиции (exposure bias), что снижает качество генерации. Мы выявили две основные причины этой проблемы: (1) несоответствие между обучением и тестированием, когда модель на этапе вывода должна полагаться на свои собственные неидеальные прогнозы, и (2) дисбаланс в сложности обучения на разных масштабах, когда определенные масштабы демонстрируют непропорционально высокую сложность оптимизации. На основе всестороннего анализа динамики обучения мы предлагаем метод Само-Авторегрессионного Уточнения (SAR) для устранения этих ограничений. SAR включает механизм Поэтапного Развертывания по Масштабам (SSR), который выполняет легковесные авторегрессионные «развертки», чтобы познакомить модель с ее собственными промежуточными прогнозами, тем самым выравнивая режимы обучения и тестирования, а также дополнительную Контрастивную Функцию Потерь с Учителем (CSFL), которая обеспечивает адекватное обучение для самостоятельно сгенерированных контекстов для обеспечения стабильности тренировки. Результаты экспериментов показывают, что применение SAR к предварительно обученным AR-моделям последовательно улучшает качество генерации при минимальных вычислительных затратах. Например, SAR обеспечивает снижение FID на 5.2% для модели FlexVAR-d16, обученной на ImageNet 256, всего за 10 эпох (5 часов на 32 GPU A100). Благодаря своей эффективности, масштабируемости и результативности, мы ожидаем, что SAR станет надежным методом пост-обработки для визуальной авторегрессионной генерации.
Современные визуально-языковые модели (VLM) демонстрируют выдающиеся способности к рассуждению благодаря обучению с подкреплением (RL), что предоставляет реализуемое решение для создания непрерывно саморазвивающихся больших визуально-языковых моделей (LVLM) в эпоху накопления опыта. Однако применение RL для VLM требует обилия высококачественных мультимодальных данных, что особенно сложно в специализированных областях, таких как химия, науки о Земле и мультимодальная математика. Существующие стратегии, включая синтетические данные и механизмы само-вознаграждения, страдают от ограниченного распределения и сложностей согласования, что в конечном итоге приводит к взлому вознаграждения: модели эксплуатируют высоко-вознаграждаемые шаблоны, коллапсируя энтропию политики и дестабилизируя обучение. Мы предлагаем DoGe (Decouple to Generalize) — дуально-разделяющий фреймворк, который направляет модели на первоначальное изучение контекста, а не на решение задач, путем перефокусировки на сценарии контекста проблемы, упускаемые методами синтетических данных. Разделяя процесс обучения на две компоненты (Мыслитель и Решатель), мы рационально квантифицируем сигналы вознаграждения этого процесса и предлагаем двухэтапный подход RL дообучения — от свободного исследования контекста к практическому решению задач. Во-вторых, для увеличения разнообразия обучающих данных DoGe конструирует эволюционирующий пайплайн учебного плана: расширенный корпус знаний исходной предметной области и итеративно развивающийся пул исходных задач. Эксперименты показывают, что наш метод стабильно превосходит базовый уровень на различных бенчмарках, предоставляя масштабируемый путь для реализации саморазвивающихся LVLM.
Обобщение в манипуляционных задачах робототехники имеет ключевое значение для внедрения роботов в реальные условия открытого мира и продвижения к искусственному общему интеллекту. Хотя современные Vision-Language-Action (VLA) модели используют большие предобученные модели понимания для восприятия и выполнения инструкций, их способность к обобщению при работе с новыми задачами, объектами и условиями остаётся ограниченной. В данной работе мы представляем VideoVLA — простой подход, исследующий потенциал преобразования больших моделей генерации видео в роботизированные VLA-манипуляторы. Получая языковую инструкцию и изображение, VideoVLA предсказывает последовательность действий, а также будущие визуальные результаты. Построенная на основе мультимодального Diffusion Transformer, модель VideoVLA совместно моделирует модальности видео, языка и действий, используя предобученные модели генерации видео для совместного визуального и поведенческого прогнозирования. Наши эксперименты показывают, что высококачественное представление будущих состояний коррелирует с надёжным предсказанием действий и успешным выполнением задачи, подчёркивая важность визуального воображения в манипуляции. VideoVLA демонстрирует сильное обобщение, включая имитацию навыков других конфигураций роботов и работу с новыми объектами. Эта стратегия двойного предсказания — прогнозирования как действий, так и их визуальных последствий — исследует смену парадигмы в обучении роботов и раскрывает возможности обобщения в манипуляционных системах.
Системы диалога с длинным контекстом страдают от проблемы инерции состояния, когда статические ограничения препятствуют разрешению конфликтов между эволюционирующими намерениями пользователя и установленным историческим контекстом. Для решения этой проблемы мы предлагаем DZ-TDPO — недеструктивную фреймворк-систему согласования, которая объединяет конфликт-ориентированные динамические KL-ограничения с калиброванным временным смещением внимания. Эксперименты на наборе данных Multi-Session Chat (MSC) демонстрируют, что DZ-TDPO достигает рекордных показателей выигрыша (55,4% для Phi-3.5), сохраняя надежную zero-shot генерализацию. Наш анализ масштабирования выявляет "компромисс между емкостью и стабильностью": в то время как меньшие модели несут "налог согласования" (резкий рост перплексии) для преодоления исторической инерции, более крупная модель Qwen2.5-7B достигает 50,8% выигрыша с незначительными накладными расходами на перплексию. Это подтверждает, что TAI может быть смягчена за счет точной регуляции внимания, а не деструктивных обновлений весов, сохраняя общие возможности (MMLU) для моделей разных масштабов. Код и данные доступны: https://github.com/lyj20071013/DZ-TDPO
По мере внедрения роботов в человеческие рабочие пространства возникает острая необходимость в том, чтобы они понимали воплощенные (основанные на телесном опыте) инструкции человека, что обеспечивает интуитивное и плавное взаимодействие человека и робота (HRI). Однако точное понимание является сложной задачей из-за отсутствия крупномасштабных наборов данных, фиксирующих естественное воплощенное взаимодействие в различных сценариях HRI. Существующие наборы данных страдают от перспективного смещения, сбора данных с единственного ракурса, недостаточного охвата невербальных жестов и преимущественной ориентации на внутренние помещения. Для решения этих проблем мы представляем набор данных Refer360 — крупномасштабный набор данных о воплощенном вербальном и невербальном взаимодействии, собранный с различных точек обзора в условиях как внутренних, так и внешних пространств. Кроме того, мы представляем MuRes, мультимодальный управляемый остаточный модуль, предназначенный для улучшения понимания воплощенных референциальных выражений. MuRes действует как информационное «бутылочное горлышко», извлекая существенные модально-специфические сигналы и усиливая ими предварительно обученные представления для формирования комплементарных признаков для последующих задач. Мы проводим обширные эксперименты на четырех наборах данных HRI, включая Refer360, и демонстрируем, что современные мультимодальные модели не способны всесторонне охватывать воплощенное взаимодействие; однако их дополнение модулем MuRes последовательно улучшает производительность. Эти результаты устанавливают Refer360 в качестве ценного эталона и демонстрируют потенциал управляемого остаточного обучения для прогресса в понимании воплощенных референциальных выражений роботами, функционирующими в человеческой среде.
Классические гарантии сходимости для градиентного обучения в играх требуют, чтобы псевдоградиент был (сильно) монотонным в евклидовой геометрии, как показал Розен (1965), — условие, которое часто нарушается даже в простых играх с сильными межигровыми связями. Мы представляем Small-Gain Nash (SGN) — блочное условие малого усилия в специальной блочно-взвешенной геометрии. SGN преобразует локальную кривизну и ограничения на межигровые липшицевы связи в проверяемый сертификат сжатия. Оно конструирует взвешенную блочную метрику, в которой псевдоградиент становится сильно монотонным в любой области, где выполняются эти ограничения, даже если он не является монотонным в евклидовом смысле. Непрерывный поток является экспоненциально сжимающим в этой спроектированной геометрии, а проекционные дискретизации Эйлера и РК4 сходятся при явных ограничениях на шаг, выведенных из запаса SGN и локальной липшицевой константы. Наш анализ выявляет сертифицированную «полосу временных масштабов» — неасимптотический, метрический сертификат, который играет роль, аналогичную TTUR: вместо принудительной асимптотической разделенности временных масштабов с помощью бесконечно убывающих неравных шагов, SGN идентифицирует конечную полосу относительных весов метрики, для которой динамика с единым шагом является доказуемо сжимающей. Мы проверяем framework на квадратичных играх, где евклидовый монотонностный анализ не предсказывает сходимость, но SGN успешно ее сертифицирует, и расширяем конструкцию на геометрии mirror/Fisher для энтропий-регуляризованного градиента политик в марковских играх. Результатом является оффлайн-пайплайн сертификации, который оценивает параметры кривизны, связей и Липшица на компактных областях, оптимизирует блочные веса для увеличения запаса SGN и возвращает структурный, вычислимый сертификат сходимости, состоящий из метрики, скорости сжатия и безопасных шагов для немонотонных игр.
Векторно-квантованный вариационный автоэнкодер (VQ-VAE) — это дискретный автоэнкодер, сжимающий изображения в дискретные токены. Его обучение затруднено из-за дискретизации. В данной статье мы предлагаем простой, но эффективный метод, названный Gaussian Quant (GQ), который преобразует гауссовский VAE с определённым ограничением в VQ-VAE без обучения. GQ генерирует случайный гауссовский шум в качестве кодбука и находит ближайший шум к апостериорному среднему. Теоретически мы доказываем, что когда логарифм размера кодбука превышает скорость кодирования с возвращением битов (bits-back coding) гауссовского VAE, гарантируется малая ошибка квантования. Практически мы предлагаем эвристику для обучения гауссовского VAE с целью эффективного применения GQ, названную ограничением на целевую дивергенцию (TDC). Экспериментально мы показываем, что GQ превосходит предыдущие VQ-VAE, такие как VQGAN, FSQ, LFQ и BSQ, как на архитектуре UNet, так и на ViT. Кроме того, TDC также улучшает предыдущие методы дискретизации гауссовских VAE, такие как TokenBridge. Исходный код доступен по адресу https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.
Современные работы по структурированному переводу текстов остаются ограниченными уровнем предложений, поскольку они не способны эффективно обрабатывать сложные XML- или HTML-структуры на уровне документа. Для решения этой проблемы мы предлагаем Обучение с подкреплением для форматирования (FormatRL), которое применяет Оптимизацию групповой относительной политики поверх модели с контролируемой тонкой настройкой для прямой оптимизации новых структурно-ориентированных функций поощрения: 1) TreeSim, измеряющий структурное сходство между предсказанными и эталонными XML-деревьями, и 2) Node-chrF, оценивающий качество перевода на уровне XML-узлов. Дополнительно мы применяем StrucAUC — детализированную метрику, различающую незначительные ошибки и серьезные структурные сбои. Эксперименты на эталонном наборе данных SAP по программной документации демонстрируют улучшения по шести метрикам, а дальнейший анализ показывает, как различные функции поощрения способствуют улучшению как структурного качества, так и качества перевода.
Мы представляем двухэтапную самообучаемую структуру, которая объединяет архитектуру совместного предсказания эмбеддингов (JEPA) с механизмом внимания, адаптивным к плотности (DAAM), для изучения устойчивых речевых представлений. На Этапе~1 используется JEPA с DAAM для изучения семантических аудио-признаков посредством предсказания с маскированием в латентном пространстве, полностью отделенного от реконструкции волновой формы. Этап~2 использует эти представления для эффективной токенизации с применением конечного скалярного квантования (FSQ) и схемы упаковки со смешанным основанием, за которой следует реконструкция волновой формы высокой точности с помощью декодера HiFi-GAN. Благодаря интеграции основанного на гауссовских смесях адаптивного к плотности затвора в кодировщик JEPA, модель выполняет адаптивный временной отбор признаков и обнаруживает иерархическую речевую структуру при низкой частоте кадров 2.5~Гц. Полученные токены (47.5 токенов/сек) обеспечивают обратимое, сильно сжатое и удобное для языкового моделирования представление, которое конкурирует с существующими нейросетевыми аудиокодеками и часто превосходит их по эффективности.
В данной работе исследуется фундаментальный разрыв между двумя последними моделями Segment Anything: SAM2 и SAM3. Мы объясняем, почему экспертиза в сегментации по промптам SAM2 не переносится на мультимодальную концептуально-ориентированную парадигму SAM3. SAM2 работает через пространственные промпты — точки, боксы и маски — обеспечивая чисто геометрическую и временную сегментацию. В отличие от этого, SAM3 представляет унифицированную архитектуру «визуение-язык», способную к открытому словарному рассуждению, семантическому обоснованию, контрастивному выравниванию и пониманию концепций на основе примеров. Мы структурируем этот анализ по пяти основным компонентам: (1) Концептуальный разрыв между сегментацией по промптам и на основе концепций, противопоставляющий пространственную семантику промптов SAM2 мультимодальному слиянию и генерации масок по текстовым условиям в SAM3; (2) Архитектурное расхождение, детализирующее чисто визуально-временной дизайн SAM2 против интеграции в SAM3 кодировщиков «визуение-язык», геометрических и экземплярных кодировщиков, модулей слияния, декодеров в стиле DETR, объектных запросов и обработки неоднозначности через ансамбли экспертов (Mixture-of-Experts); (3) Различия в данных и разметке, противопоставляющие видео-маски SA-V для SAM2 мультимодальным корпусам с концептуальной разметкой для SAM3; (4) Различия в обучении и гиперпараметрах, показывающие, почему знания по оптимизации SAM2 неприменимы к SAM3; и (5) Оценка, метрики и режимы сбоев, описывающие переход от геометрических метрик IoU к семантической, открытой словарной оценке. В совокупности эти анализы устанавливают SAM3 как новый класс базовой модели сегментации и намечают будущие направления для зарождающейся эры концептуально-ориентированной сегментации.