Ежедневно отобранные исследовательские статьи по ИИ с переводами
Видеофундаментальные модели генерируют визуально реалистичный и временно согласованный контент, но их надежность как симуляторов мира зависит от того, учитывают ли они физические, логические и пространственные ограничения. Существующие метрики, такие как Frechet Video Distance (FVD), делают акцент на перцепционном качестве и игнорируют ошибки в рассуждениях, включая нарушения причинно-следственных связей, законов физики и глобальной согласованности. Мы представляем MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark) — принципиальную систему оценки, основанную на пяти способностях к рассуждению: физической, логической, 3D-пространственной, 2D-пространственной и временной. MMGR оценивает генеративные рассуждения в трех областях: абстрактное мышление (ARC-AGI, Судоку), навигация в окружающей среде (навигация и локализация в реальном 3D-мире) и здравый смысл в физике (спорт и композиционные взаимодействия). MMGR применяет детализированные метрики, требующие целостной корректности как для генерации видео, так и для генерации изображений. Мы провели сравнительный анализ ведущих видео-моделей (Veo-3, Sora-2, Wan-2.2) и изображений (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), выявив значительные разрывы в производительности между доменами. Модели демонстрируют умеренный успех в задачах на физический здравый смысл, но показывают низкие результаты в абстрактном мышлении (точность ниже 10% на ARC-AGI) и испытывают трудности с долгосрочным пространственным планированием в условиях окружающей среды. Наш анализ выявляет ключевые ограничения современных моделей, включая чрезмерную зависимость от перцептивных данных, слабую согласованность глобального состояния и целевые функции, поощряющие визуальную правдоподобность в ущерб причинной корректности. MMGR предлагает унифицированный диагностический бенчмарк и путь к созданию генеративных моделей мира, учитывающих рассуждения.
В данной статье представлена модель потоковой диффузии видео WorldPlay, которая обеспечивает интерактивное моделирование мира в реальном времени с долгосрочной геометрической согласованностью, разрешая компромисс между скоростью и памятью, ограничивающий современные методы. Мощность WorldPlay основывается на трех ключевых инновациях. 1) Мы используем Двойное Представление Действий для обеспечения надежного управления действиями в ответ на ввод пользователя с клавиатуры и мыши. 2) Для обеспечения долгосрочной согласованности наша Реконструируемая Память Контекста динамически восстанавливает контекст из прошлых кадров и использует временное перефразирование, чтобы сохранять доступ к геометрически важным, но давно прошедшим кадрам, эффективно смягчая затухание памяти. 3) Мы также предлагаем Принуждение Контекста — новый метод дистилляции, разработанный для моделей с учетом памяти. Согласование контекста памяти между учителем и учеником сохраняет способность ученика использовать информацию из большого временного диапазона, что позволяет достичь скорости в реальном времени, предотвращая накопление ошибок. В совокупности WorldPlay генерирует длительные потоковые видео в разрешении 720p со скоростью 24 кадра в секунду с превосходной согласованностью, выгодно отличаясь от существующих техник и демонстрируя сильную обобщающую способность для разнообразных сцен. Страница проекта и онлайн-демо доступны по адресам: https://3d-models.hunyuan.tencent.com/world/ и https://3d.hunyuan.tencent.com/sceneTo3D.
Последние достижения в области генерации видео позволяют создавать настолько реалистичный контент, что зачастую его невозможно отличить от настоящих видеозаписей, что делает задачу детектирования видео, сгенерированного ИИ, актуальной социальной проблемой. Существующие бенчмарки для обнаружения AIGC-контента в основном оценивают видео без звуковой дорожки, ориентированы на широкие нарративные области и сфокусированы исключительно на классификации. При этом остается неясным, способны ли современные модели генерации видео создавать иммерсивные видео со звуком, которые могут надежно обмануть как человека, так и VLMs (визуально-языковые модели). Для решения этой задачи мы представляем Video Reality Test — набор бенчмарков на основе ASMR-видео для тестирования перцептивной реалистичности в условиях тесной аудиовизуальной связи, который характеризуется следующими аспектами: (i) Иммерсивные ASMR-видео с аудио. Бенчмарк построен на тщательно отобранных реальных ASMR-видео и нацелен на анализ тонких взаимодействий «действие-объект» с разнообразием объектов, действий и фонов. (ii) Оценка по принципу рецензирования. Используется протокол «создатель-рецензент», в котором модели генерации видео выступают в роли создателей, стремящихся обмануть рецензентов, а VLMs действуют как рецензенты, пытающиеся выявить подделку. Результаты нашего эксперимента показывают: лучшая модель-создатель Veo3.1-Fast обманывает большинство VLMs: самый сильный рецензент (Gemini 2.5-Pro) достигает точности всего 56% (при случайном угадывании 50%), что значительно ниже показателя экспертов-людей (81,25%). Добавление аудио улучшает различение реального и сгенерированного контента, однако поверхностные признаки, такие как водяные знаки, все еще могут существенно вводить модели в заблуждение. Эти результаты очерчивают текущие границы реалистичности генерации видео и выявляют ограничения VLMs в оценке перцептивного качества и аудиовизуальной согласованности. Наш код доступен по адресу https://github.com/video-reality-test/video-reality-test.
Быстрая эволюция больших языковых моделей (LLM) основывается на качестве и разнообразии данных после обучения. Однако сохраняется ключевая дихотомия: в то время как модели проходят тщательное бенчмаркирование, данные, которые их питают, остаются «чёрным ящиком» — им свойственны непрозрачный состав, неясное происхождение и отсутствие систематической оценки. Эта непрозрачность препятствует воспроизводимости и скрывает причинно-следственную связь между характеристиками данных и поведением моделей. Чтобы устранить этот разрыв, мы представляем OpenDataArena (ODA) — целостную открытую платформу, предназначенную для оценки внутренней ценности данных пост-обучения. ODA создает комплексную экосистему, включающую четыре ключевых компонента: (i) унифицированный конвейер обучения-оценки, обеспечивающий честные и открытые сравнения для различных моделей (например, Llama, Qwen) и предметных областей; (ii) многомерную систему оценки, которая характеризует качество данных по десяткам различных параметров; (iii) интерактивный инструмент для визуализации происхождения данных, позволяющий отслеживать генеалогию наборов данных и анализировать их составные источники; и (iv) полностью открытый инструментарий для обучения, оценки и подсчета баллов, способствующий исследованиям данных. Масштабные эксперименты на ODA — охватившие более 120 обучающих наборов данных из различных областей на 22 бенчмарках, проверенные в ходе более 600 прогонов обучения и обработки 40 миллионов точек данных — выявили нетривиальные закономерности. Наш анализ раскрывает неизбежные компромиссы между сложностью данных и производительностью модели, выявляет избыточность в популярных бенчмарках с помощью трассировки происхождения и отображает генеалогические связи между наборами данных. Мы публикуем все результаты, инструменты и конфигурации, чтобы демократизировать доступ к качественной оценке данных. Вместо простого расширения таблицы лидеров ODA стремится к переходу от кураторства данных методом проб и ошибок к принципиальной науке о Data-Centric AI, прокладывая путь для строгих исследований законов смешения данных и стратегического состава базовых моделей.
Генерация изображений на основе объектов продвинулась от композиции с одним объектом до многокомпонентной композиции, однако при этом игнорировалась различимость — способность идентифицировать и генерировать правильный объект, когда входные данные содержат несколько кандидатов. Это ограничение снижает эффективность в сложных реалистичных визуальных сценариях. Мы предлагаем Scone — унифицированный метод понимания-генерации, интегрирующий композицию и различимость. Scone позволяет эксперту понимания выступать в роли семантического моста, передавая семантическую информацию и направляя эксперта генерации для сохранения идентичности объекта при минимизации интерференции. Двухэтапная схема обучения сначала осваивает композицию, а затем усиливает различимость через семантическое выравнивание и маскирование на основе внимания. Мы также представляем SconeEval — эталонный набор для оценки как композиции, так и различимости в различных сценариях. Эксперименты показывают, что Scone превосходит существующие модели с открытым исходным кодом в задачах композиции и различения на двух эталонных тестах. Наша модель, эталонный набор и данные обучения доступны по адресу: https://github.com/Ryann-Ran/Scone.
Пространственное трассирование, как фундаментальная способность роботов к воплощенному взаимодействию, изначально является сложной задачей, поскольку требует многошагового метрически обоснованного рассуждения в сочетании со сложными пространственными ссылками и реальными метрическими измерениями. Однако существующие методы не справляются с этой композиционной задачей. Для ее решения мы предлагаем RoboTracer — 3D-осознанную VLM, которая впервые достигает как пространственного ссылания, так и измерения в 3D с помощью универсального пространственного энкодера и регрессионно-контролируемого декодера для повышения осведомленности о масштабе в процессе контролируемой тонкой настройки (SFT). Более того, RoboTracer продвигает многошаговое метрически обоснованное рассуждение за счет тонкой настройки с подкреплением (RFT) с метрически-чувствительными пошаговыми вознаграждениями, контролируя ключевые промежуточные перцептивные сигналы для точного генерирования пространственных трасс. Для поддержки обучения SFT и RFT мы представляем TraceSpatial — масштабный набор данных из 30 млн пар "вопрос-ответ", охватывающий уличные/комнатные/настольные сцены и поддерживающий сложные процессы рассуждений (до 9 шагов). Мы также представляем TraceSpatial-Bench — сложный эталонный тест, заполняющий пробел для оценки пространственного трассирования. Результаты экспериментов показывают, что RoboTracer превосходит базовые методы в пространственном понимании, измерении и ссылании со средним процентом успеха 79,1%, а также демонстрирует состояние искусства на TraceSpatial-Bench с большим отрывом, превосходя Gemini-2.5-Pro на 36% по точности. Примечательно, что RoboTracer может быть интегрирован с различными политиками управления для выполнения долгосрочных динамических задач на разнообразных роботах (UR5, гуманоид G1) в загроможденных реальных сценах.
Создание моделей общего назначения для логических рассуждений с помощью обучения с подкреплением (RL) сопряжено со значительной гетерогенностью между доменами, включая большой разброс в длине ответов на этапе вывода и задержке верификации. Такая изменчивость усложняет инфраструктуру RL, замедляет обучение и создает трудности в выборе учебного плана обучения (например, расширения длины ответа) и гиперпараметров. В данной работе мы предлагаем каскадное посемейное обучение с подкреплением (Cascade RL) для разработки моделей логических рассуждений общего назначения, Nemotron-Cascade, способных работать как в режиме инструкций, так и в режиме глубокого размышления. В отличие от традиционных подходов, смешивающих гетерогенные промпты из разных доменов, Cascade RL организует последовательное, посемейное RL, снижая инженерную сложность и обеспечивая передовую производительность на широком спектре бенчмарков. Примечательно, что RLHF для согласования, используемый в качестве предварительного шага, значительно повышает способность модели к рассуждению, выходя далеко за рамки простой оптимизации предпочтений, а последующие этапы посемейного RLVR редко ухудшают производительность на бенчмарках, достигнутую в предыдущих доменах, и могут даже улучшить ее (см. иллюстрацию на Рисунке 1). Наша 14-миллиардная модель после RL превосходит своего учителя SFT, DeepSeek-R1-0528, на LiveCodeBench v5/v6/Pro и демонстрирует результат серебряного медалиста на Международной олимпиаде по информатике (IOI) 2025 года. Мы открыто делимся нашими рецептами обучения и данных.
Масштабируемая векторная графика (SVG) занимает центральное место в современном веб-дизайне, а потребность в её анимации продолжает расти по мере того, как веб-среда становится всё более динамичной. Однако автоматизация анимации векторной графики остаётся сложной задачей для визуально-языковых моделей (VLM), несмотря на недавний прогресс в генерации кода и планировании движений. VLM часто некорректно обрабатывают SVG, поскольку визуально целостные части часто фрагментированы на низкоуровневые фигуры, которые не дают представления о том, какие элементы должны двигаться вместе. В данной статье мы представляем фреймворк, который восстанавливает семантическую структуру, необходимую для надёжной анимации SVG, и выявляет недостающий слой, который упускают из виду современные системы VLM. Это достигается за счёт статистической агрегации множества слабых предсказаний частей, что позволяет системе устойчиво выводить семантику из зашумлённых предсказаний. Путем реорганизации SVG в семантические группы наш подход позволяет VLM создавать анимации с гораздо большей согласованностью. Наши эксперименты демонстрируют существенное преимущество по сравнению с существующими подходами, что позволяет предположить, что восстановление семантики является ключевым шагом, который открывает возможность robust-анимации SVG и поддерживает более интерпретируемое взаимодействие между VLM и векторной графикой.
Основная проблема потокового генерации видео заключается в сохранении согласованности контента в длинном контексте, что предъявляет высокие требования к проектированию памяти. Большинство существующих решений поддерживают память путем сжатия исторических кадров с использованием предопределенных стратегий. Однако различные генерируемые сегменты видео должны обращаться к различным историческим ключам, что трудно обеспечить фиксированными стратегиями. В данной работе мы предлагаем MemFlow для решения этой проблемы. В частности, перед генерацией очередного сегмента мы динамически обновляем банк памяти, извлекая наиболее релевантные исторические кадры с помощью текстового промпта для этого сегмента. Такой подход обеспечивает нарративную связность даже при возникновении новых событий или смене сценария в последующих кадрах. Кроме того, в процессе генерации мы активируем только наиболее релевантные токены в банке памяти для каждого запроса в слоях внимания, что эффективно гарантирует производительность генерации. Таким образом, MemFlow достигает выдающейся согласованности в длинном контексте с пренебрежимо малыми вычислительными затратами (снижение скорости на 7.9% по сравнению с базовым методом без памяти) и сохраняет совместимость с любой моделью потоковой генерации видео, использующей KV-кэш.
Мы представляем Olmo 3 — семейство передовых полностью открытых языковых моделей с масштабами 7 и 32 миллиардов параметров. Модели Olmo 3 разработаны для решения задач, требующих анализа длинного контекста, вызова функций, программирования, следования инструкциям, ведения общего диалога и извлечения знаний. Данный релиз включает полный цикл создания моделей, то есть весь жизненный цикл семейства, содержащий каждый этап, контрольные точки, точки данных и зависимости, использованные для его построения. Наша флагманская модель Olmo 3 Think 32B является самой мощной полностью открытой «мыслящей» моделью из когда-либо выпущенных на сегодняшний день.
Поиск векторного сходства (VSS) в высокоразмерных пространствах быстро становится ключевой функциональностью в системах баз данных следующего поколения для многочисленных сервисов, интенсивно использующих данные — от поиска эмбеддингов в больших языковых моделях (LLM) до семантического информационного поиска и рекомендательных систем. Однако современные бенчмарки оценивают VSS в основном по компромиссу между полнотой и задержкой относительно эталонной истины, определяемой исключительно метриками расстояния, игнорируя то, как качество поиска в конечном счете влияет на последующие задачи. Этот разрыв может вводить в заблуждение как академические исследования, так и промышленную практику. Мы представляем Iceberg — комплексный набор бенчмарков для сквозной оценки методов VSS в реалистичных контекстах применения. С точки зрения, ориентированной на задачу, Iceberg выявляет *Воронку потери информации*, которая определяет три основных источника сквозного снижения производительности: (1) *Потерю при эмбеддинге* на этапе извлечения признаков; (2) *Некорректное использование метрики*, когда расстояния плохо отражают релевантность для задачи; (3) *Чувствительность к распределению данных*, подчеркивающую устойчивость индекса к асимметриям и модальностям. Для более комплексной оценки Iceberg охватывает восемь разнообразных наборов данных из ключевых областей, таких как классификация изображений, распознавание лиц, текстовый поиск и рекомендательные системы. Каждый набор данных, объемом от 1 до 100 миллионов векторов, включает богатые, специфичные для задачи метки и метрики оценки, что позволяет анализировать алгоритмы поиска в рамках полного конвейера приложения, а не изолированно. Iceberg тестирует 13 современных методов VSS и переранжирует их на основе метрик уровня приложения, выявляя существенные отклонения от традиционных рейтингов, полученных исключительно на основе оценок полноты и задержки. Основываясь на этих инсайтах, мы определяем набор ориентированных на задачу мета-признаков и выводим интерпретируемое дерево решений, чтобы помочь практикам выбирать и настраивать методы VSS для их конкретных рабочих нагрузок.
Разработка эффективных функций вознаграждения представляет собой центральную и зачастую трудоемкую проблему в обучении с подкреплением (OR), особенно при создании автономных агентов для сложных задач логического вывода. Хотя существуют подходы к автоматической оптимизации вознаграждений, они обычно полагаются на эволюционные эвристики без использования производных, которые рассматривают функцию вознаграждения как «черный ящик» и не учитывают причинно-следственную связь между структурой вознаграждения и результативностью решения задачи. Для преодоления этого разрыва мы предлагаем Дифференцируемое Эволюционное Обучение с Подкреплением (Differentiable Evolutionary Reinforcement Learning, DERL) — двухуровневую框架, которая позволяет автономно обнаруживать оптимальные сигналы вознаграждения. В DERL Мета-Оптимизатор развивает функцию вознаграждения (т.е. Мета-Вознаграждение) путем композиции структурированных атомарных примитивов, направляя обучение политики на внутреннем уровне. Ключевое отличие от предыдущих эволюционных методов состоит в том, что метаоптимизация в DERL является дифференцируемой: она рассматривает результативность на валидационной выборке внутреннего уровня как сигнал для обновления Мета-Оптимизатора с помощью обучения с подкреплением. Это позволяет DERL аппроксимировать «метаградиент» успешности задачи, постепенно обучаясь генерировать более плотную и практичную обратную связь. Мы проверяем эффективность DERL в трех различных областях: робототехнический агент (ALFWorld), научное моделирование (ScienceWorld) и математические рассуждения (GSM8k, MATH). Экспериментальные результаты показывают, что DERL достигает наилучших результатов на ALFWorld и ScienceWorld, значительно превосходя методы, основанные на эвристических вознаграждениях, особенно в сценариях с выходом за пределы распределения данных. Анализ эволюционной траектории демонстрирует, что DERL успешно выявляет внутреннюю структуру задач, обеспечивая самосовершенствующееся согласование агентов без вмешательства человека.
Данная работа не предлагает новый метод, а устанавливает простой, инкрементальный, но важный базовый уровень для временной локализации в видео (Video Temporal Grounding, VTG) — ключевой способности в понимании видео. Хотя мультимодальные большие языковые модели (MLLM) преуспевают в решении различных задач понимания видео, методы их оптимизации для VTG остаются малоизученными. В данной статье мы представляем TimeLens — систематическое исследование построения MLLM с сильными способностями к VTG по двум основным направлениям: качество данных и алгоритмический дизайн. Мы сначала выявляем критические проблемы качества в существующих бенчмарках VTG и представляем TimeLens-Bench, включающий тщательно переаннотированные версии трех популярных бенчмарков со строгими критериями качества. Наш анализ показывает кардинальное изменение рейтингов моделей по сравнению с устаревшими бенчмарками, подтверждая ненадежность предыдущих стандартов оценки. Мы также решаем проблему зашумленных данных для обучения с помощью автоматизированного пайплайна переаннотации, создавая TimeLens-100K — крупномасштабный высококачественный набор данных для обучения. Опираясь на нашу основу данных, мы проводим углубленное исследование принципов алгоритмического дизайна, получая серию значимых инсайтов и эффективных, но экономичных практик. К ним относятся: чередующееся текстовое кодирование для представления времени, подход обучения с подкреплением без размышлений с верифицируемыми наградами (RLVR) в качестве парадигмы обучения и тщательно разработанные методики для обучения RLVR. Эти усилия culminate в моделях TimeLens — семействе MLLM, демонстрирующих наилучшую производительность по VTG среди открытых моделей и даже превосходящих проприетарные модели, такие как GPT-5 и Gemini-2.5-Flash. Все коды, данные и модели будут опубликованы для содействия будущим исследованиям.
Хотя существующие модели генерации и унифицированные модели преуспевают в создании изображений общего характера, они испытывают трудности с задачами, требующими глубоких рассуждений, планирования и точного преобразования данных в визуальное представление за пределами стандартных сценариев. Чтобы преодолеть существующие ограничения, мы представляем новую сложную задачу: креативную визуализацию таблиц, которая требует от модели генерации инфографики, достоверно и эстетично визуализирующей данные из заданной таблицы. Для решения этой проблемы мы предлагаем ShowTable — конвейер, который объединяет MLLM с диффузионными моделями посредством прогрессивного самокорректирующего процесса. MLLM выступает в роли центрального оркестратора для планирования визуализации и выявления визуальных ошибок с целью предоставления уточненных инструкций, а диффузионная модель выполняет команды от MLLM, достигая результатов высокой точности. Для поддержки данной задачи и нашего конвейера мы представляем три автоматизированных конвейера построения данных для обучения различных модулей. Кроме того, мы представляем TableVisBench — новый эталонный набор из 800 сложных примеров по 5 оценочным измерениям для оценки производительности в этой задаче. Эксперименты показывают, что наш конвейер, реализованный с различными моделями, значительно превосходит базовые методы, демонстрируя эффективные возможности мультимодального reasoning, генерации и коррекции ошибок.
Крупные языковые модели (LLM) продемонстрировали значительный потенциал в преобразовании рекомендательных систем от неявного сопоставления поведенческих паттернов к явному логическому выводу намерений. Хотя RecGPT-V1 успешно pioneered эту парадигму, интегрировав LLM-обусловленное рассуждение в анализ пользовательских интересов и прогнозирование тегов элементов, она страдает от четырёх фундаментальных ограничений: (1) вычислительная неэффективность и когнитивная избыточность across множественных маршрутов рассуждения; (2) недостаточное разнообразие объяснений в генерации с фиксированными шаблонами; (3) ограниченная обобщающая способность в рамках парадигм обучения с учителем; и (4) упрощённая оценка, сфокусированная на результате, которая не соответствует человеческим стандартам. Для решения этих проблем мы представляем RecGPT-V2 с четырьмя ключевыми инновациями. Во-первых, Иерархическая Мульти-Агентная Система перестраивает логический вывод намерений через скоординированное collaboration, устраняя когнитивное дублирование и обеспечивая разнообразное покрытие интентов. В сочетании с Гибридным Представлением Вывода, которое сжимает контексты пользовательского поведения, наша framework снижает потребление GPU на 60% и улучшает эксклюзивную полноту с 9.39% до 10.99%. Во-вторых, Meta-Prompting framework динамически генерирует контекстно-адаптивные промты, улучшая разнообразие объяснений на +7.3%. В-третьих, ограниченное обучение с подкреплением смягчает конфликты множественных вознаграждений, достигая улучшения на +24.1% в прогнозировании тегов и на +13.0% в принятии объяснений. В-четвёртых, framework "Агент-как-Судья" декомпозирует оценку на многошаговое рассуждение, улучшая соответствие человеческим предпочтениям. Онлайн A/B-тесты на Taobao демонстрируют значительные улучшения: +2.98% CTR, +3.71% IPV, +2.19% TV и +11.46% NER. RecGPT-V2 устанавливает как техническую осуществимость, так и коммерческую жизнеспособность масштабного развёртывания LLM-обусловленного логического вывода намерений, преодолевая разрыв между когнитивным исследованием и промышленной полезностью.
Диффузионные языковые модели (dLM) стали перспективной парадигмой, позволяющей осуществлять параллельную неавторегрессионную генерацию, однако их эффективность обучения при тренировке с нуля отстает от авторегрессионных (AR) языковых моделей. Для решения этой проблемы мы исследуем преобразование AR-моделей в dLM с целью создания эффективных диффузионных моделей, которые сочетают высокую скорость работы с сохранением точности исходных AR-моделей. Мы достигаем этого путем выявления ограничений в шаблонах внимания и целевых функциях существующих методов AR-to-dLM и предложения принципов и методологий для более эффективного преобразования. В частности, мы сначала систематически сравниваем различные шаблоны внимания и обнаруживаем, что сохранение распределений весов предобученных AR-моделей критически важно для эффективного преобразования. Таким образом, мы предлагаем схему непрерывного предобучения с блочным шаблоном внимания, который сохраняет причинность между блоками, обеспечивая при этом двунаправленное моделирование внутри каждого блока. Мы обнаружили, что этот подход лучше сохраняет распределения весов предобученных AR-моделей по сравнению с полностью двунаправленным моделированием, а также обладает известным преимуществом поддержки KV-кэширования, что приводит к выигрышу как в точности, так и в эффективности. Во-вторых, для сокращения разрыва между обучением и тестированием в распределениях маскированных токенов (равномерное против сильно лево-правого) мы предлагаем стратегию позиционно-зависимого маскирования токенов, которая назначает более высокие вероятности маскирования поздним токенам во время обучения для лучшего соответствия поведению на этапе тестирования. Используя этот фреймворк, мы проводим масштабные исследования шаблонов внимания dLM, динамики обучения и других проектных решений, предоставляя практические рекомендации по масштабируемому преобразованию AR-to-dLM. Эти исследования приводят к созданию семейства Efficient-DLM, которое превосходит современные AR-модели и dLM: например, наша модель Efficient-DLM 8B демонстрирует на +5,4%/+2,7% более высокую точность при пропускной способности в 4,5x/2,7x выше по сравнению с Dream 7B и Qwen3 4B соответственно.
Последние достижения в области преобразования изображений в 3D открыли огромные возможности для дизайна, AR/VR и робототехники. Однако для практического использования 3D-ассетов, созданных ИИ, ключевым требованием является возможность их легкого редактирования. Мы представляем прямой метод Steer3D, который добавляет текстовую управляемость моделям image-to-3D, позволяя редактировать созданные 3D-ассеты с помощью языка. Наш подход вдохновлен ControlNet, который мы адаптировали для генерации 3D из изображений, чтобы обеспечить текстовое управление за один прямой проход. Мы создали масштабируемый механизм генерации данных и разработали двухэтапную схему обучения на основе flow-matching и Direct Preference Optimization (DPO). По сравнению с конкурирующими методами, Steer3D точнее следует текстовым инструкциям и лучше сохраняет соответствие исходному 3D-ассету, при этом работая в 2,4–28,5 раз быстрее. Steer3D демонстрирует, что можно добавить новую модальность (текст) для управления генерацией предобученных image-to-3D моделей, используя всего 100 тыс. данных. Сайт проекта: https://glab-caltech.github.io/steer3d/
Мы представляем SS4D — нативную 4D-генеративную модель, которая синтезирует динамические 3D-объекты непосредственно из моноскопического видео. В отличие от предыдущих подходов, конструирующих 4D-представления через оптимизацию на основе 3D- или видео-генеративных моделей, мы обучаем генератор напрямую на 4D-данных, достигая высокой точности, временной согласованности и структурной целостности. В основе нашего метода лежит сжатый набор структурированных пространственно-временных латентных переменных. А именно: (1) Для решения проблемы недостатка 4D-данных для обучения мы используем предварительно обученную модель для генерации 3D из одного изображения, сохраняя высокую пространственную согласованность. (2) Временная согласованность обеспечивается за счёт введения специализированных временных слоёв, которые анализируют информацию между кадрами. (3) Для эффективного обучения и вывода на длинных видео-последовательностях мы сжимаем латентную последовательность вдоль временной оси с помощью факторизованных 4D-свёрток и блоков временной субдискретизации. Кроме того, мы применяем тщательно разработанную стратегию обучения для повышения устойчивости к окклюзии.
Быстрое масштабирование больших языковых моделей (LLM) позволило достичь выдающихся результатов, однако оно также приводит к запретительно высоким затратам памяти. Существующие параметрически эффективные подходы, такие как прунинг и квантование, в основном сжимают предобученные модели без повышения архитектурной ёмкости, тем самым упираясь в репрезентационный потолок базовой модели. В данной работе мы предлагаем VersatileFFN — новую сеть прямого распространения (FFN), которая обеспечивает гибкое повторное использование параметров как по ширине, так и по глубине при фиксированном бюджете параметров. Вдохновлённые дуальной теорией познания, мы создали VersatileFFN, состоящую из двух адаптивных путей: ширино-вариативного пути, который генерирует смесь суб-экспертов из единственной разделяемой FFN, имитируя разреженную маршрутизацию экспертов без увеличения параметров, и глубино-вариативного пути, который рекурсивно применяет ту же FFN для эмуляции более глубокой обработки сложных токенов. Динамический затрудненно-чувствительный механизм балансирует два пути, направляя «простые» токены через эффективный ширино-ориентированный маршрут и выделяя более глубокую итеративную доработку для «сложных» токенов. Ключевым моментом является то, что оба пути повторно используют одни и те же параметры, поэтому вся дополнительная ёмкость достигается за счёт вычислений, а не памяти. Эксперименты на различных бенчмарках и масштабах моделей демонстрируют эффективность метода. Код будет доступен по адресу https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
Прогнозирование аффордансов — задача определения областей взаимодействия на объектах на основе языковых инструкций — играет ключевую роль в воплощенном искусственном интеллекте. Существующие end-to-end модели объединяют высокоуровневые рассуждения и низкоуровневую локализацию в единый монолитный конвейер и полагаются на обучение размеченным наборам данных, что приводит к слабой обобщающей способности на новых объектах и в неизвестных средах. В данной статье мы выходим за рамки этой парадигмы, предлагая A4-Agent — бестренировочный агентский фреймворк, который разделяет прогнозирование аффордансов на трехэтапный конвейер. Наша система координирует специализированные фундаментальные модели на этапе тестирования: (1) «Мечтатель» использует генеративные модели для визуализации того, как будет выглядеть взаимодействие; (2) «Мыслитель» задействует большие визуально-языковые модели для определения части объекта для взаимодействия; и (3) «Наблюдатель» управляет визуальными фундаментальными моделями для точного определения местоположения области взаимодействия. Благодаря использованию комплементарных преимуществ предварительно обученных моделей без какой-либо специфической дообучки, наш zero-shot фреймворк значительно превосходит современные supervised-методы по множеству бенчмарков и демонстрирует robust-обобщение в реальных условиях.
Обучение в контексте является фундаментальным свойством современных больших языковых моделей (LLM), однако преобладающие архитектуры накладывают жесткую и фиксированную контекстную структуру, назначая линейные или постоянные позиционные индексы. Опираясь на теорию когнитивной нагрузки (CLT), мы утверждаем, что такая неинформативная структура увеличивает постороннюю когнитивную нагрузку, потребляя ограниченную ресурсы рабочей памяти, которые должны быть выделены на глубокие рассуждения и распределение внимания. Для решения этой проблемы мы предлагаем RePo — новый механизм, снижающий постороннюю нагрузку за счет перепозиционирования контекста. В отличие от стандартных подходов, RePo использует дифференцируемый модуль f_φ для назначения позиций токенов, которые отражают контекстные зависимости, вместо reliance на предопределенный целочисленный диапазон. Путем непрерывного дообучения на базе OLMo-2 1B мы демонстрируем, что RePo значительно улучшает производительность на задачах с зашумленными контекстами, структурированными данными и увеличенной длиной контекста, сохраняя при этом конкурентоспособные результаты на общих задачах с коротким контекстом. Детальный анализ показывает, что RePo успешно уделяет больше внимания удаленной, но релевантной информации, назначает позиции в плотном и нелинейном пространстве и захватывает внутреннюю структуру входного контекста. Наш код доступен по адресу https://github.com/SakanaAI/repo.
Маскированные дискретные диффузионные модели (MDM) демонстрируют высокую производительность в широком спекре мультимодальных задач, включая понимание, генерацию и редактирование изображений. Однако их скорость вывода остается неоптимальной из-за необходимости многократно обрабатывать избыточные маскированные токены на каждом шаге сэмплирования. В данной работе мы предлагаем Sparse-LaViDa — новую модель, которая динамически обрезает ненужные маскированные токены на каждом шаге вывода для ускорения сэмплирования в MDM. Для сохранения качества генерации мы вводим специализированные регистровые токены, которые служат компактными представлениями для обрезанных токенов. Кроме того, для обеспечения согласованности между обучением и выводом мы разрабатываем специализированную маску внимания, которая точно соответствует процедуре усеченного сэмплирования в процессе обучения. Построенная на основе передовой унифицированной MDM LaViDa-O, модель Sparse-LaViDa обеспечивает до 2-кратного ускорения в различных задачах, включая генерацию изображений по тексту, редактирование изображений и математические рассуждения, при сохранении качества генерации.
Достижение по-настоящему адаптивного воплощенного интеллекта требует создания агентов, которые обучаются не только путем подражания статичным демонстрациям, но и за счет непрерывного совершенствования в процессе взаимодействия со средой, что аналогично тому, как люди осваивают навыки на практике. Модели «Vision-Language-Action» (VLA) совершили прорыв в роботизированном манипулировании, используя большие языковые модели, однако они фундаментально ограничены обучением с учителем (SFT): требуются сотни демонстраций для каждой задачи, происходит жесткое запоминание траекторий, и модель не способна адаптироваться, когда условия эксплуатации отклоняются от учебных. Мы представляем EVOLVE-VLA — фреймворк обучения в процессе тестирования, который позволяет моделям VLA непрерывно адаптироваться через взаимодействие со средой при минимальном или нулевом количестве специфичных для задачи демонстраций. Ключевая техническая проблема заключается в замене эталонных сигналов вознаграждения (недоступных во время тестирования) на автономную обратную связь. Мы решаем эту проблему с помощью обученного оценщика прогресса, обеспечивающего плотную обратную связь, и, что критически важно, проектируем наш фреймворк так, чтобы «обуздать» этот по своей природе зашумленный сигнал с помощью двух механизмов: (1) механизма кумулятивной оценки прогресса, сглаживающего точечные зашумленные оценки, и (2) стратегии прогрессивного расширения горизонта, позволяющей постепенную эволюцию политики. EVOLVE-VLA демонстрирует существенный прирост: +8,6% в задачах с длинным горизонтом, +22,0% при обучении с одного примера и обеспечивает кросс-задачное обобщение — достигая 20,8% успеха на незнакомых задачах без обучения на специфичных для них демонстрациях (против 0% для чистого SFT). Качественный анализ выявляет emergent-способности, отсутствующие в демонстрациях, включая восстановление после ошибок и новые стратегии. Данная работа представляет собой важный шаг к созданию моделей VLA, которые действительно обучаются и адаптируются, выходя за рамки статичного подражания к непрерывному самоусовершенствованию.
Задача обоснованного видеоответа на вопросы (GVQA) направлена на локализацию релевантных временных сегментов в видео и генерацию точных ответов на заданный вопрос; однако крупные видео-языковые модели (LVLM) демонстрируют ограниченную временную осведомленность. Хотя существующие подходы на основе оптимизации групповой относительной политики (GRPO) пытаются улучшить временную привязку, они по-прежнему неспособны достоверно обосновывать свои ответы соответствующими видео-доказательствами, что приводит к временной ошибке локализации и галлюцинациям. В данной работе мы представляем Zoom-Zero, двухэтапную (от грубой к точной) структуру, которая сначала локализует релевантные запросу сегменты, а затем временно приближается к наиболее значимым кадрам для более детальной визуальной верификации. Наш метод преодолевает ограничения GRPO для задачи GVQA за счет двух ключевых нововведений: (i) вознаграждения за точность приближения, которое проверяет достоверность прогноза временной привязки и способствует детальной визуальной проверке на обоснованных кадрах; (ii) токен-селективного распределения заслуг, которое приписывает вознаграждение токенам, ответственным за временную локализацию или генерацию ответа, смягчая проблему GRPO с обработкой многогранных сигналов вознаграждения. Предложенный нами метод продвигает вперед задачу обоснованного видеоответа на вопросы, улучшая временную привязку на 5.2% на NExT-GQA и на 4.6% на ReXTime, одновременно повышая среднюю точность ответов на 2.4%. Кроме того, двухэтапное приближение на этапе вывода дополнительно способствует пониманию длинных видео, сохраняя критические визуальные детали без ущерба для глобального контекста, что дает среднее улучшение на 6.4% на бенчмарках для длинных видео.
Мы представляем метод CRISP, который восстанавливает симулируемое движение человека и геометрию сцены из монокулярного видео. Предыдущие работы по совместной реконструкции человека и сцены опираются на априорные данные и совместную оптимизацию без учета физики или восстанавливают зашумленную геометрию с артефактами, из-за которых политики отслеживания движения со взаимодействием со сценой дают сбой. В отличие от них, наше ключевое решение заключается в восстановлении выпуклой, чистой и готовой к симуляции геометрии путем подгонки планарных примитивов к облаку точек реконструированной сцены с помощью простого конвейера кластеризации по глубине, нормалям и потоку. Чтобы реконструировать геометрию сцены, которая может быть закрыта во время взаимодействий, мы используем моделирование контакта человека со средой (например, используем позу человека для реконструкции закрытого сиденья стула). Наконец, мы обеспечиваем физическую правдоподобность реконструкций человека и сцены, используя их для управления контроллером гуманоида с помощью обучения с подкреплением. Наш подход снижает частоту сбоев отслеживания движения с 55,2% до 6,9% на бенчмарках видео с участием человека (EMDB, PROX), одновременно обеспечивая на 43% более высокую пропускную способность RL-симуляции. Мы дополнительно проверяем его на реальных видео, включая случайно снятые ролики, интернет-видео и даже видео, сгенерированные Sora. Это демонстрирует способность CRISP генерировать физически корректное движение человека и среды взаимодействия в больших масштабах, что значительно продвигает приложения "реальность-симуляция" для робототехники и AR/VR.
Непараметрическое квантование привлекает значительное внимание благодаря своей параметрической эффективности и масштабируемости для больших кодбуков. В данной статье мы предлагаем единую формулировку различных методов непараметрического квантования через призму теории решётчатых кодов. Геометрия решётчатых кодов объясняет необходимость вспомогательных функций потерь при обучении автокодировщиков с некоторыми существующими вариантами квантования без таблиц поиска, такими как BSQ. В качестве дальнейшего шага мы исследуем несколько возможных кандидатов, включая случайные решётки, обобщённые решётки Фибоначчи и решётки с наиболее плотной упаковкой сфер. Среди них мы обнаружили, что метод квантования на основе решётки Лича, названный Сферическим Квантованием Лича (Λ_{24}-SQ), благодаря своей высокой симметрии и равномерному распределению на гиперсфере, приводит как к упрощённой процедуре обучения, так и к улучшенному компромиссу между реконструкцией и сжатием. В задачах токенизации и сжатия изображений данный подход квантования демонстрирует лучшее качество реконструкции по всем метрикам по сравнению с BSQ — лучшим существующим методом, — потребляя при этом немного меньше бит. Улучшение также распространяется на современные авторегрессивные фреймворки генерации изображений.
Восстановление медицинских изображений (MedIR) направлено на получение высококачественных медицинских изображений из их низкокачественных аналогов. Последние достижения в области MedIR были сосредоточены на универсальных моделях (All-in-One), способных одновременно решать несколько различных задач MedIR. Однако из-за значительных различий как в модальностях, так и в типах деградации, использование общей модели для этих разнородных задач требует тщательного учёта двух критически важных взаимосвязей между задачами: интерференции задач, которая возникает при конфликтующих направлениях обновления градиента для разных задач на одном и том же параметре, и дисбаланса задач, который относится к неравномерной оптимизации, вызванной различной сложностью обучения, присущей каждой задаче. Для решения этих проблем мы предлагаем трансформер с адаптацией к задачам (TAT) — новую архитектуру, которая динамически адаптируется к различным задачам благодаря двум ключевым инновациям. Во-первых,引入了 стратегия генерации адаптивных весов задач для смягчения интерференции задач путём генерации специфичных для задачи параметров весов, что устраняет потенциальные конфликты градиентов на общих параметрах. Во-вторых,引入了 стратегия динамического балансирования потерь, которая регулирует веса функций потерь на основе сложности обучения каждой задачи, предотвращая доминирование или недостаточное обучение отдельных задач. Многочисленные эксперименты демонстрируют, что предложенный метод TAT достигает наилучших результатов в трёх задачах MedIR — синтезе ПЭТ, подавлении шума КТ и супер-разрешении МРТ — как в рамках индивидуального обучения для каждой задачи, так и в универсальном режиме All-in-One. Код доступен по адресу https://github.com/Yaziwel/TAT.
Вывод крупных моделей со смесью экспертов (MoE) сопряжен со сложностями из-за высоких требований к ресурсам и динамически меняющейся нагрузки. Существующие решения часто развертывают всю модель как единое монолитное целое, применяя единую конфигурацию ресурсов как для модулей внимания, так и для экспертов, несмотря на их различные требования, что приводит к ограниченной масштабируемости и неэффективному использованию ресурсов. В данной статье мы предлагаем Janus — масштабируемую систему для вывода MoE, которая разъединяет модули внимания и экспертов, размещая их на отдельных GPU-подкластерах, что позволяет управлять каждым модулем и масштабировать его независимо. Janus включает три ключевых решения для эффективного распределенного вывода MoE. Во-первых, предлагается адативная двухфазная схема коммуникации, использующая иерархии внутриузловой и межузловой пропускной способности для обмена данными с низкой задержкой. Во-вторых, учитывая ограниченность производительности модулей MoE по пропускной способности памяти, Janus вводит легковесный планировщик, реализованный в виде GPU-ядрa, для балансировки количества активированных экспертов между GPU с минимальными накладными расходами, тем самым сокращая задержку вывода. В-третьих, Janus осуществляет детальное управление ресурсами для динамической корректировки размещения экспертов и независимого масштабирования ресурсов внимания и MoE с целью повышения общей эффективности. Оценка показывает, что Janus обеспечивает до 3,9 раз более высокую пропускную способность на один GPU по сравнению с современными системами при соблюдении требований к задержке на токен.
Подкрепляемое обучение с верифицируемыми вознаграждениями (RLVR) доказало свою эффективность при обучении больших моделей рассуждений (LRM) за счет использования верифицируемых сигналов ответов для оптимизации политики, однако этот подход страдает от высоких затрат на разметку данных. Чтобы смягчить эту проблему, в последних работах исследуются неконтролируемые методы RLVR, которые извлекают вознаграждения исключительно из внутренней согласованности модели, например, через энтропию и мажоритарное голосование. Хотя эти методы кажутся перспективными, они часто сталкиваются с коллапсом модели на поздних стадиях обучения, что может быть вызвано закреплением ошибочных паттернов рассуждений при отсутствии внешнего контроля. В данной работе мы исследуем новую полуконтролируемую парадигму RLVR, которая использует небольшой размеченный набор данных для направления RLVR-обучения на немеченых примерах. Наше ключевое наблюдение заключается в том, что контролируемые вознаграждения необходимы для стабилизации обучения на основе согласованности на немеченых выборках, гарантируя, что в обучение с подкреплением включаются только паттерны рассуждений, верифицированные на размеченных примерах. Технически мы предлагаем эффективный алгоритм оптимизации политики TraPO, который идентифицирует надежные немеченые выборки путем сопоставления схожести их траекторий обучения с траекториями размеченных выборок. На этой основе TraPO демонстрирует выдающуюся эффективность использования данных и сильную обобщающую способность на шести широко используемых бенчмарках математических рассуждений (AIME24/25, AMC, MATH-500, Minerva и Olympiad) и трех задачах на обобщение вне распределения (ARC-c, GPQA-diamond и MMLU-pro). Всего с 1 тыс. размеченных и 3 тыс. немеченых примеров TraPO достигает средней точности 42,6%, превосходя лучший неконтролируемый метод, обученный на 45 тыс. немеченых примеров (38,3%). Примечательно, что при использовании 4 тыс. размеченных и 12 тыс. немеченых примеров TraPO превосходит полностью контролируемую модель, обученную на всех 45 тыс. размеченных примеров, на всех бенчмарках, используя лишь 10% размеченных данных. Код доступен по адресу https://github.com/ShenzhiYang2000/TRAPO.
Механизмы безопасности в больших языковых моделях предотвращают ответы на вредоносные запросы через обученное поведение отказа, однако эти же механизмы препятствуют легитимным исследовательским приложениям, включая когнитивное моделирование, адверсарное тестирование и анализ безопасности. Хотя техники аблитерации позволяют хирургически удалять репрезентации отказа посредством направленной ортогонализации, относительная эффективность доступных реализаций остаётся неохарактеризованной. В данном исследовании оцениваются четыре инструмента аблитерации (Heretic, DECCP, ErisForge, FailSpy) на шестнадцати инструктивно-дообученных моделях (7–14 млрд параметров), сообщается о совместимости инструментов со всеми 16 моделями и приводятся количественные метрики для подмножеств, определённых поддержкой инструментов. Одноэтапные методы продемонстрировали превосходное сохранение способностей на тестируемом подмножестве (среднее изменение GSM8K для трёх моделей: ErisForge -0.28 п.п.; DECCP -0.13 п.п.), в то время как байесовски-оптимизированная аблитерация вызывала вариабельный сдвиг распределения (расхождение Кульбака-Лейблера: 0.043–1.646) с зависящим от модели влиянием на способности. Эти результаты предоставляют исследователям основанные на доказательствах критерии выбора для развёртывания инструментов аблитерации в различных модельных архитектурах. Ключевой вывод указывает, что математические reasoning-способности проявляют наивысшую чувствительность к интервенциям аблитерации, с изменением GSM8K в диапазоне от +1.51 п.п. до -18.81 п.п. (-26.5% относительно) в зависимости от выбора инструмента и архитектуры модели.
Модели мира продемонстрировали высокую эффективность в улучшении производительности воплощенных агентов при выполнении задач. В то время как предыдущие работы в основном сосредоточены на моделях мира в пиксельном пространстве, эти подходы сталкиваются с практическими ограничениями в условиях графического интерфейса, где прогнозирование сложных визуальных элементов в будущих состояниях часто затруднено. В данной работе мы исследуем альтернативную формулировку моделирования мира для агентов, работающих с графическим интерфейсом, где переходы между состояниями описываются на естественном языке, а не прогнозируются исходные пиксели. Во-первых, мы представляем MobileWorldBench — эталонный тест, который оценивает способность моделей "визуальный язык" (VLMs) функционировать в качестве моделей мира для мобильных агентов с графическим интерфейсом. Во-вторых, мы публикуем MobileWorld — масштабный набор данных, состоящий из 1,4 миллиона примеров, который значительно улучшает возможности VLMs по моделированию мира. Наконец, мы предлагаем новую структуру, которая интегрирует модели мира на основе VLMs в систему планирования мобильных агентов, демонстрируя, что семантические модели мира могут напрямую приносить пользу мобильным агентам, повышая процент успешного выполнения задач. Код и набор данных доступны по адресу https://github.com/jacklishufan/MobileWorld.
Автоматизированное извлечение зданий из данных дистанционного зондирования представляет собой сложную задачу ввиду значительного структурного разнообразия объектов. Существующие методы используют сверточные блоки или механизмы самовнимания для захвата многомасштабных признаков в моделях сегментации, однако присущий пирамидам признаков разрыв и недостаточная интеграция глобально-локальных особенностей приводят к неточным и неоднозначным результатам. Для решения данной проблемы в статье представлена сеть Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), способная выявлять высококачественные глобально-локальные визуальные семантики под управлением моделирования неопределенности. В частности, предложен кооперативный энкодер, использующий гибридные слои CNN и трансформера на разных стадиях для захвата локальных и глобальных визуальных семантик соответственно. Разработан промежуточный блок кооперативного взаимодействия (CIB) для сокращения разрыва между локальными и глобальными признаками при увеличении глубины сети. Далее предложен модуль глобально-локального слияния (GLF) для комплементарного объединения глобальных и локальных представлений. Кроме того, для снижения неоднозначности сегментации в областях с высокой неопределенностью разработан декодер с агрегацией неопределенности (UAD), явно оценивающий поточечную неопределенность для повышения точности сегментации. Эксперименты подтверждают превосходство предложенного метода над современными аналогами. Исходный код доступен по адресу https://github.com/Dstate/UAGLNet
Успех современных методов машинного обучения зависит от доступа к высококачественным обучающим данным. Во многих реальных сценариях, таких как получение данных из публичных репозиториев или обмен между учреждениями, данные естественным образом организованы в дискретные наборы, различающиеся по релевантности, качеству и полезности. Выбор репозиториев или учреждений для поиска полезных наборов данных, а также определение того, какие наборы данных включить в обучение модели, являются критически важными решениями. Однако большинство существующих методов выбирают отдельные образцы и рассматривают все данные как одинаково релевантные, игнорируя различия между наборами данных и их источниками. В данной работе мы формализуем задачу выбора наборов данных: отбора целых наборов данных из большого гетерогенного пула для повышения итоговой производительности при ограниченных ресурсах. Мы предлагаем метод DaSH (Dataset Selection via Hierarchies), который моделирует полезность как на уровне отдельных наборов данных, так и на уровне групп (например, коллекций, учреждений), обеспечивая эффективное обобщение при ограниченном количестве наблюдений. На двух публичных бенчмарках (Digit-Five и DomainNet) DaSH превосходит современные базовые методы отбора данных на величину до 26.2% по точности, требуя при этом значительно меньше шагов исследования. Абляционные исследования демонстрируют устойчивость DaSH к условиям с ограниченными ресурсами и отсутствию релевантных наборов данных, что делает его пригодным для масштабируемого и адаптивного выбора наборов данных в практических рабочих процессах обучения из множества источников.
В данной статье представлены JMMMU-Pro — бенчмарк для оценки японского междисциплинарного мультимодального понимания на основе изображений — и Vibe Benchmark Construction, масштабируемый метод построения таких бенчмарков. Развивая идею эволюции от MMMU к MMMU-Pro, JMMMU-Pro расширяет JMMU путем объединения изображения-вопроса и текста вопроса в единое изображение, создавая таким образом бенчмарк, требующий интегрального визуально-текстового понимания через визуальное восприятие. Для построения JMMMU-Pro мы предлагаем Vibe Benchmark Construction — методологию, в которой модель генерации изображений (например, Nano Banana Pro) создает кандидаты визуальных вопросов, а люди проверяют результаты и при необходимости перегенерируют их с корректировками промптов для обеспечения качества. Благодаря использованию высокореалистичных возможностей генерации изображений Nano Banana Pro и ее способности встраивать четкий японский текст, мы создаем качественный бенчмарк с низкими затратами, охватывающий широкий спектр фонов и дизайнов макетов. Результаты экспериментов показывают, что все открытые LMM значительно затрудняются с JMMMU-Pro, что подчеркивает его важность как бенчмарка для направления будущих усилий в сообществе open-source. Мы считаем, что JMMMU-Pro предоставляет более строгий инструмент оценки японских возможностей LMM, а наша Vibe Benchmark Construction также предлагает эффективное руководство для будущей разработки визуальных бенчмарков типа VQA.
Генерация видео по тексту (Text-to-video, T2V) быстро развивается, однако сохранение согласованной идентичности персонажа между сценами остается серьезной проблемой. Существующие методы персонализации часто фокусируются на лицевой идентичности, но не сохраняют более широкие контекстные признаки, такие как прическа, одежда и телосложение, которые критически важны для визуальной целостности. Мы предлагаем ContextAnyone, контекстно-ориентированную диффузионную архитектуру, которая обеспечивает генерацию видео с согласованными персонажами из текста и одного эталонного изображения. Наш метод совместно реконструирует эталонное изображение и генерирует новые кадры видео, позволяя модели полностью воспринимать и использовать эталонную информацию. Эталонная информация эффективно интегрируется в диффузионную основу на базе DiT с помощью нового модуля Emphasize-Attention, который выборочно усиливает признаки, учитывающие эталон, и предотвращает дрейф идентичности между кадрами. Двойная функция потерь объединяет цели диффузии и реконструкции эталона для повышения точности воспроизведения внешнего вида, в то время как предложенное позиционное кодирование Gap-RoPE разделяет токены эталона и видео для стабилизации временного моделирования. Эксперименты показывают, что ContextAnyone превосходит существующие методы генерации видео по эталону по согласованности идентичности и визуальному качеству, создавая последовательные видео с персонажами, сохраняющими контекст, в различных движениях и сценах. Страница проекта: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
В последние годы передовые методы в области неконтролируемой сегментации экземпляров на видео в значительной степени опираются на синтетические видеоданные, сгенерированные из ориентированных на объекты наборов изображений, таких как ImageNet. Однако синтез видео путем искусственного сдвига и масштабирования масок экземпляров изображений не позволяет точно моделировать реалистичное движение в видео, такое как изменение перспективы, движение частей одного или нескольких экземпляров или движение камеры. Для решения этой проблемы мы предлагаем модель неконтролируемой сегментации экземпляров на видео, обучаемую исключительно на реальных видеоданных. Мы исходим из неконтролируемых масок сегментации экземпляров на отдельных кадрах видео. Однако эти сегментации на одиночных кадрах демонстрируют временной шум, и их качество варьируется на протяжении видео. Поэтому мы устанавливаем временную согласованность, выявляя высококачественные ключевые маски в видео с использованием глубоких априорных моделей движения. Разреженные псевдо-аннотации ключевых масок затем используются для обучения модели сегментации для неявного распространения масок, для чего мы предлагаем подход Sparse-To-Dense Distillation (Дистилляция от разреженного к плотному) с использованием Temporal DropLoss (Временная потеря отсева). После обучения итоговой модели на полученном плотном наборе меток наш подход превосходит современные state-of-the-art методы в различных тестах.
Быстрая интеграция генеративного искусственного интеллекта в образование стимулировала цифровую трансформацию электронного обучения, однако пользовательские восприятия образовательных приложений на основе ИИ остаются недостаточно изученными. Данное исследование проводит оценку пользовательских отзывов на ведущих ИИ-образовательных приложениях в Google Play Store на основе анализа тональности для оценки эффективности, проблем и педагогических последствий. Наш подход включал сбор данных приложений и отзывов, использование RoBERTa для бинарной классификации тональности, GPT-4o для извлечения ключевых моментов и GPT-5 для синтеза основных позитивных и негативных тем. Приложения были классифицированы на семь типов (например, помощники по домашним заданиям, решатели математических задач, языковые инструменты), с перекрытиями, отражающими многофункциональный дизайн. Результаты указывают на преобладание позитивных настроений: приложения для домашних заданий, такие как Edu AI (95,9% позитивных) и Answer.AI (92,7%), лидируют по точности, скорости и персонализации, в то время как языковые приложения и системы управления обучением (например, Teacher AI с 21,8% позитивных отзывов) отстают из-за нестабильности и ограниченного функционала. Позитивные аспекты подчеркивают эффективность в генерации идей, решении задач и вовлеченности; негативные сосредоточены на платных подписках, неточностях, рекламе и сбоях. Тренды показывают, что помощники по домашним заданиям превосходят специализированные инструменты, что подчеркивает демократизирующий потенциал ИИ на фоне рисков зависимости и неравенства. В дискуссии предлагаются будущие экосистемы с гибридными ИИ-человеческими моделями, VR/AR для immersive-обучения и дорожная карта для разработчиков (адаптивная персонализация) и регуляторов (регулирование монетизации для обеспечения инклюзивности). Это подчеркивает роль генеративного ИИ в продвижении электронного обучения путем обеспечения этических улучшений, способствующих созданию справедливых и инновационных сред. Полный набор данных доступен здесь (https://github.com/erfan-nourbakhsh/GenAI-EdSent).
В данной статье представлен крупномасштабный мультимодальный набор данных для сегментации видео с референциальными выражениями движения, ориентированный на сегментацию и отслеживание целевых объектов в видео на основе языкового описания движений объектов. Существующие наборы данных для референциальной сегментации видео часто фокусируются на значимых объектах и используют языковые выражения, богатые статическими атрибутами, что потенциально позволяет идентифицировать целевой объект в одном кадре. Такие наборы данных недооценивают роль движения как в видео, так и в языке. Для исследования возможности использования выражений движения и подсказок для логического вывода о движении при поэксельном анализе видео мы представляем MeViS — набор данных, содержащий 33 072 аннотированных человеком выражения движения в текстовой и аудиоформе, охватывающих 8 171 объект в 2 006 видео со сложными сценами. Мы провели сравнительный анализ 15 существующих методов по 4 задачам, поддерживаемым MeViS, включая 6 методов референциальной сегментации объектов в видео (RVOS), 3 метода аудио-управляемой сегментации объектов в видео (AVOS), 2 метода референциального отслеживания множества объектов (RMOT) и 4 метода генерации подписей к видео для новой задачи генерации референциальных выражений движения (RMEG). Результаты демонстрируют слабые стороны и ограничения существующих методов в решении задачи анализа видео под руководством выражений движения. Мы дополнительно анализируем challenges и предлагаем подход LMPM++ для задач RVOS/AVOS/RMOT, который достигает новых наилучших результатов. Наш набор данных предоставляет платформу, способствующую разработке алгоритмов анализа видео под руководством выражений движения в сложных видеосценах. Предложенный набор данных MeViS и исходный код метода общедоступны по адресу https://henghuiding.com/MeViS/.
Крупномасштабные визуально-языковые модели (VLM) демонстрируют впечатляющие способности к сложным рассуждениям, но их потенциал в области визуального последовательного планирования, то есть выполнения многошаговых действий для достижения цели, остается в значительной степени неисследованным. Кроме того, практическое последовательное планирование часто включает неоптимальные (ошибочные) шаги, что создает для VLM проблему по их обнаружению и исправлению. Мы предлагаем бенчмарк Corrective Sequential Planning Benchmark (CoSPlan) для оценки VLM в задачах последовательного планирования на основе визуальных данных, подверженных ошибкам, в четырех областях: навигация в лабиринте, перестановка блоков, реконструкция изображений и реорганизация объектов. CoSPlan оценивает две ключевые способности: обнаружение ошибок (идентификация неоптимального действия) и завершение шага (исправление и завершение последовательности действий для достижения цели). Несмотря на использование передовых методов рассуждений, таких как Chain-of-Thought и сценочные графы, современные VLM (например, Intern-VLM и Qwen2) демонстрируют низкие результаты на CoSPlan, не способные использовать контекстные подсказки для достижения целей. Для решения этой проблемы мы предлагаем новый метод, не требующий обучения, — инкрементные обновления сценочного графа (Scene Graph Incremental updates, SGI), который вводит промежуточные шаги рассуждений между начальным и целевым состояниями. SGI помогает VLM рассуждать о последовательностях, обеспечивая средний прирост производительности на 5.2%. Помимо повышения надежности в корректирующем последовательном планировании, SGI обобщается на традиционные задачи планирования, такие как Plan-Bench и VQA.