Ежедневно отобранные исследовательские статьи по ИИ с переводами
Парадигмы "Мышление с текстом" и "Мышление с изображениями" значительно повышают способность к рассуждению больших языковых моделей (LLM) и визуально-языковых моделей (VLM). Однако эти парадигмы имеют inherent limitations. (1) Изображения фиксируют лишь отдельные моменты и не способны передавать динамические процессы или непрерывные изменения, и (2) Разделение текста и визуальной информации как различных модальностей препятствует унифицированному мультимодальному пониманию и генерации. Для преодоления этих ограничений мы представляем "Мышление с видео" — новую парадигму, которая использует модели генерации видео, такие как Sora-2, для объединения визуальных и текстовых рассуждений в единой временной framework. Для поддержки этого исследования мы разработали бенчмарк Video Thinking Benchmark (VideoThinkBench). VideoThinkBench охватывает две категории задач: (1) визуально-ориентированные задачи (например, головоломки на зрительное восприятие) и (2) тексто-ориентированные задачи (например, подмножества GSM8K, MMMU). Наша оценка показывает, что Sora-2 является способным инструментом рассуждений. В визуально-ориентированных задачах Sora-2 в целом сопоставима с передовыми (SOTA) VLM, и даже превосходит VLM в нескольких задачах, таких как визуальные игры. В тексто-ориентированных задачах Sora-2 достигает точности 92% на MATH и 75.53% на MMMU. Кроме того, мы систематически анализируем источник этих способностей. Мы также обнаружили, что самосогласованность и обучение в контексте могут улучшить производительность Sora-2. В заключение, наши результаты демонстрируют, что модель генерации видео является потенциально унифицированной моделью для мультимодального понимания и генерации, позиционируя "мышление с видео" как унифицированную парадигму мультимодального рассуждения.
Наделение крупных мультимодальных моделей (LMM) способностью к глубокой интеграции взаимодействия с изображениями и долгосрочным рассуждениям остается давней проблемой в этой области. Недавние достижения в области визуально-центрированного мышления исследуют перспективную парадигму «мышления через изображения» для LMM, знаменуя переход от рассуждений с помощью изображений к интерактивному мышлению на основе изображений. Хотя этот прорыв позволяет моделям фокусироваться на мелкозернистых областях изображений, прогресс остается ограниченным из-за узкого пространства визуальных инструментов и специфичных для задач дизайнов рабочих процессов. Чтобы устранить этот разрыв, мы представляем V-Thinker, универсального мультимодального ассистента для рассуждений, который обеспечивает интерактивное, визуально-центрированное мышление с помощью сквозного обучения с подкреплением. V-Thinker состоит из двух ключевых компонентов: (1) Маховика Эволюции Данных, который автоматически синтезирует, развивает и проверяет интерактивные наборы данных для рассуждений по трем измерениям — разнообразию, качеству и сложности; и (2) Визуального Прогрессивного Учебного Плана, который сначала выравнивает восприятие с помощью точечного контроля, а затем интегрирует интерактивные рассуждения через двухэтапную框架 обучения с подкреплением. Кроме того, мы представляем VTBench, экспертно-верифицированный бенчмарк, нацеленный на задачи визуально-центрированного интерактивного мышления. Многочисленные эксперименты демонстрируют, что V-Thinker стабильно превосходит сильные базовые модели на основе LMM как в общих, так и в интерактивных сценариях рассуждений, предоставляя ценные insights для развития приложений интерактивного мышления на основе изображений.
Хотя обучение с подкреплением (RL) позволяет расширить возможности агентов на основе больших языковых моделей (LLM) за счет самообучения через взаимодействие, его практическое внедрение остается сложной задачей из-за дорогостоящих прогонов, ограниченного разнообразия задач, ненадежных сигналов вознаграждения и сложности инфраструктуры, что препятствует сбору масштабируемых данных опыта. Для решения этих проблем мы представляем DreamGym — первую унифицированную платформу, разработанную для синтеза разнообразного опыта с учетом масштабируемости, чтобы обеспечить эффективное онлайн-обучение с подкреплением для автономных агентов. Вместо reliance на дорогостоящие прогоны в реальной среде DreamGym абстрагирует динамику среды в модель опыта на основе рассуждений, которая выводит последовательные переходы между состояниями и сигналы обратной связи через пошаговые логические цепочки, обеспечивая сбор масштабируемых прогонов агента для RL. Для повышения стабильности и качества переходов DreamGym использует буфер воспроизведения опыта, инициализированный оффлайн-данными из реального мира и постоянно пополняемый новыми взаимодействиями для активной поддержки обучения агента. Для улучшения приобретения знаний DreamGym адаптивно генерирует новые задачи, бросающие вызов текущей политике агента, обеспечивая более эффективное онлайн-обучение по учебному плану. Эксперименты в различных средах и на различных архитектурах агентов демонстрируют, что DreamGym существенно улучшает RL-обучение как в полностью синтетических условиях, так и в сценариях переноса из симуляции в реальность. На задачах, не готовых для RL, таких как WebArena, DreamGym превосходит все базовые методы более чем на 30%. А в условиях, готовых для RL, но дорогостоящих, он соответствует производительности GRPO и PPO, используя только синтетические взаимодействия. При переносе политики, обученной исключительно на синтетическом опыте, в RL в реальной среде DreamGym обеспечивает значительный дополнительный прирост производительности, требуя при этом гораздо меньше реальных взаимодействий, предоставляя масштабируемую стратегию предварительной подготовки для RL общего назначения.
Мы утверждаем, что прогресс в области подлинного мультимодального интеллекта требует перехода от реактивных, ориентированных на задачи систем и грубого использования длинного контекста к более широкой парадигме сверхчувственного восприятия (supersensing). Мы определяем пространственное сверхчувственное восприятие как четыре этапа, выходящие за рамки чисто лингвистического понимания: семантическое восприятие (наименование того, что видится), потоковое познание событий (поддержание памяти в ходе непрерывного опыта), неявное 3D-пространственное познание (вывод о мире за пикселями) и предсказательное моделирование мира (создание внутренних моделей, которые фильтруют и организуют информацию). Современные эталонные тесты в основном проверяют лишь ранние стадии, предлагая узкое покрытие пространственного познания и редко бросая моделям вызовы, требующие подлинного моделирования мира. Чтобы стимулировать прогресс в области пространственного сверхчувственного восприятия, мы представляем VSI-SUPER, двухкомпонентный эталонный тест: VSR (долгосрочное визуальное пространственное вспоминание) и VSC (непрерывный визуальный пространственный подсчет). Эти задачи требуют произвольно длинных видео-входов, но устойчивы к грубому расширению контекста. Затем мы тестируем пределы масштабирования данных, курируя набор VSI-590K и обучая модель Cambrian-S, достигая абсолютного улучшения на +30% на VSI-Bench без ущерба для общих способностей. Однако производительность на VSI-SUPER остается ограниченной, что указывает на недостаточность одного лишь масштабирования для пространственного сверхчувственного восприятия. Мы предлагаем предсказательное восприятие (predictive sensing) как путь вперед, представляя доказательство концепции, в котором самообучаемый предиктор следующего латентного кадра использует удивление (ошибку предсказания) для управления памятью и сегментацией событий. На тесте VSI-SUPER этот подход существенно превосходит ведущие проприетарные базовые модели, показывая, что пространственное сверхчувственное восприятие требует моделей, которые не только видят, но и предвосхищают, отбирают и организуют опыт.
Мы представляем Nemotron Nano V2 VL — новейшую модель серии Nemotron для обработки визуальной и текстовой информации, разработанную для эффективного понимания реальных документов, анализа длинных видео и решения задач логического вывода. Модель Nemotron Nano V2 VL демонстрирует значительные улучшения по сравнению с нашей предыдущей моделью, Llama-3.1-Nemotron-Nano-VL-8B, во всех визуальных и текстовых областях благодаря существенным усовершенствованиям в архитектуре модели, наборах данных и методиках обучения. Nemotron Nano V2 VL основана на Nemotron Nano V2, гибридной Mamba-Transformer LLM, и инновационных методах сокращения токенов для достижения более высокой пропускной способности при выводе в сценариях работы с длинными документами и видео. Мы публикуем контрольные точки модели в форматах BF16, FP8 и FP4, а также открываем значительную часть наших наборов данных, методик и обучающего кода.
Гипотеза сильных лотерейных билетов (Strong Lottery Ticket Hypothesis, SLTH) предполагает, что в случайно инициализированных нейронных сетях существуют высокопроизводительные подсети, называемые сильными лотерейными билетами (Strong Lottery Tickets, SLT). Хотя последние теоретические исследования подтвердили справедливость SLTH для различных нейронных архитектур, теоретическое обоснование SLTH для архитектур трансформеров до сих пор отсутствует. В частности, текущая теория SLTH еще не учитывает механизм многоголового внимания (Multi-Head Attention, MHA), который является ключевым компонентом трансформеров. Чтобы восполнить этот пробел, мы представляем теоретический анализ существования SLT внутри MHA. Мы доказываем, что если в случайно инициализированном MHA с H головами и входной размерностью d скрытая размерность для ключей и значений составляет O(dlog(Hd^{3/2})), то с высокой вероятностью он содержит SLT, аппроксимирующий произвольный MHA с той же входной размерностью. Более того, используя эту теорию для MHA, мы расширяем SLTH на трансформеры без слоев нормализации. Мы эмпирически подтверждаем наши теоретические выводы, демонстрируя, что ошибка аппроксимации между SLT внутри исходной модели (MHA и трансформер) и приближенной целевой моделью экспоненциально уменьшается с увеличением скрытой размерности исходной модели.
Мы представляем GUI-360° — масштабный, комплексный набор данных и набор тестов, предназначенный для продвижения компьютерных агентов (CUA). CUA представляют уникальные проблемы и ограничены тремя устойчивыми пробелами: нехваткой реальных задач для CUA, отсутствием автоматизированных конвейеров сбора и аннотирования мультимодальных траекторий и отсутствием унифицированного теста, который совместно оценивает граундинг в GUI, парсинг экрана и предсказание действий. GUI-360° решает эти пробелы с помощью усиленного LLM-ами, в значительной степени автоматизированного конвейера для поиска запросов, построения шаблонов окружений, инстанцирования задач, пакетного выполнения и LLM-управляемой фильтрации по качеству. Опубликованный корпус содержит более 1,2 миллиона выполненных шагов действий в тысячах траекторий в популярных офисных приложениях Windows и включает скриншоты в полном разрешении, метаданные доступности (при их наличии), конкретизированные цели, промежуточные трассировки рассуждений, а также как успешные, так и неудачные траектории действий. Набор данных поддерживает три канонические задачи — граундинг в GUI, парсинг экрана и предсказание действий — и гибридное пространство действий GUI+API, отражающее современные архитектуры агентов. Тестирование передовых моделей «визуальный язык» на GUI-360° выявляет существенные недостатки «из коробки» в граундинге и предсказании действий; контролируемое тонкое обучение и обучение с подкреплением дают значительное улучшение, но не закрывают разрыв с надежностью человеческого уровня. Мы публикуем GUI-360° и сопутствующий код, чтобы способствовать воспроизводимым исследованиям и ускорить прогресс в создании надежных настольных CUA. Полный набор данных был опубликован по адресу: https://huggingface.co/datasets/vyokky/GUI-360.
Последние достижения в области визуально-языковых моделей (VLM) позволили достичь рекордных показателей на множестве бенчмарков. Однако использование интернет-масштабных, часто проприетарных, корпусов для предварительного обучения вызывает серьёзную озабоченность как у разработчиков, так и у пользователей: завышение производительности из-за утечки тестовых данных. В то время как предыдущие работы предлагали стратегии смягчения этой проблемы, такие как очистка данных предварительного обучения и редизайн бенчмарков для LLM, комплементарное направление — разработка методов обнаружения загрязнённых VLM — остаётся недостаточно изученным. Чтобы восполнить этот пробел, мы намеренно загрязняем модели VLM с открытым исходным кодом на популярных бенчмарках и показываем, что существующие подходы к обнаружению либо полностью не справляются, либо демонстрируют нестабильное поведение. Затем мы предлагаем новый простой, но эффективный метод обнаружения, основанный на мультимодальном семантическом возмущении, демонстрируя, что загрязнённые модели не способны к обобщению в условиях контролируемых возмущений. Наконец, мы проверяем наш подход на множестве реалистичных стратегий загрязнения, подтверждая его устойчивость и эффективность. Код и возмущённый набор данных будут опубликованы в открытом доступе.
Надежные бенчмарки крайне важны для оценки мультимодальных больших языковых моделей (МБЯМ). Однако мы обнаруживаем, что модели могут превосходно справляться со многими мультимодальными тестами без наличия глубокого визуального понимания, вместо этого используя смещения, лингвистические априорные предположения и поверхностные шаблоны. Это особенно проблематично для визуально-ориентированных бенчмарков, которые по замыслу должны требовать визуальных входных данных. Мы применяем диагностический принцип для проектирования бенчмарков: если бенчмарком можно манипулировать, то это произойдет. Поэтому разработчики должны сначала попытаться «обойти» свои собственные бенчмарки, используя диагностические процедуры и процедуры устранения смещений для систематического выявления и снижения невизуальных предубеждений. Эффективная диагностика требует прямого «обучения на тестовом наборе» — исследования опубликованного тестового набора на предмет его внутренних, эксплуатируемых закономерностей. Мы реализуем этот стандарт с помощью двух компонентов. Во-первых, мы диагностируем подверженность бенчмарка смещениям с использованием методологии «Стресс-тест тестового набора» (TsT). Наш основной диагностический инструмент включает тонкую настройку мощной большой языковой модели с помощью k-кратной перекрестной проверки исключительно на невизуальных, текстовых входных данных тестового набора, чтобы выявить производительность за счет «коротких путей» и присвоить каждому образцу оценку смещения s(x). Мы дополняем это легковесной диагностикой на основе случайного леса, работающей с рукописными признаками, для быстрого и интерпретируемого аудита. Во-вторых, мы устраняем смещения в бенчмарках, фильтруя образцы с высоким уровнем смещения с помощью процедуры «Итеративной обрезки смещений» (IBP). Применяя эту структуру к четырем бенчмаркам — VSI-Bench, CV-Bench, MMMU и VideoMME — мы выявляем повсеместные невизуальные смещения. В качестве примера мы применяем нашу полную структуру для создания VSI-Bench-Debiased, демонстрируя сниженную решаемость без визуальной информации и более широкий разрыв в производительности с моделью, лишенной зрения, по сравнению с оригиналом.
Возникающие паттерны систем больших языковых моделей (LLM), такие как распределенный вывод, маршрутизация по методу смеси экспертов (MoE) и асинхронная тонкая настройка с подкреплением, требуют гибкой связи типа "точка-точка", выходящей за рамки простых коллективных операций. Существующие реализации привязаны к конкретным сетевым контроллерам (NIC), что затрудняет их интеграцию в механизмы вывода и переносимость между поставщиками оборудования. Мы представляем TransferEngine, который объединяет функциональность распространенных NIC, предоставляя единый интерфейс. TransferEngine поддерживает односторонние операции WriteImm с примитивом ImmCounter для уведомления о завершении, без предположений о порядке доставки в сети, и прозрачно управляет несколькими NIC на один GPU. Мы демонстрируем пиковую пропускную способность в 400 Гбит/с как на NVIDIA ConnectX-7, так и на AWS Elastic Fabric Adapter (EFA). Мы показываем работу TransferEngine на примере трех производственных систем: (1) передача KvCache для распределенного вывода с динамическим масштабированием, (2) обновления весов при обучении с подкреплением, достигающие 1,3 секунды для моделей с триллионом параметров, и (3) реализация распределения/агрегации для MoE, превосходящая задержку декодирования DeepEP на ConnectX-7 и впервые обеспечивающая приемлемую задержку на EFA. Мы демонстрируем, что наша переносимая связь "точка-точка" дополняет коллективные операции, избегая привязки к конкретному решению.
Мы представляем EVTAR — сквозную модель виртуальной примерки с дополнительными референсами, которая напрямую подгоняет целевую одежду на изображение человека, используя эталонные изображения для повышения точности примерки. Большинство существующих подходов к виртуальной примерке опираются на сложные входные данные, такие как агностические изображения человека, позы, densepose или ключевые точки тела, что делает их трудоемкими и непрактичными для реальных применений. В отличие от них, EVTAR использует двухэтапную стратегию обучения, позволяющую проводить простой вывод только на основе исходного изображения и изображения целевой одежды. Наша модель генерирует результаты примерки без масок, densepose или карт сегментации. Более того, EVTAR использует дополнительные эталонные изображения разных людей в одной и той же одежде, чтобы лучше сохранять текстуру и мелкие детали garments. Этот механизм аналогичен тому, как люди учитывают референсные модели при выборе нарядов, что позволяет имитировать более реалистичный и качественный эффект одевания. Мы обогащаем обучающие данные дополнительными референсами и несопоставленными изображениями людей для поддержки этих возможностей. Мы оцениваем EVTAR на двух широко используемых бенчмарках и разнообразных задачах, и результаты последовательно подтверждают эффективность нашего подхода.
Несмотря на впечатляющее понимание видео на высоком уровне, мультимодальные языковые модели испытывают трудности с пространственными рассуждениями во времени и пространстве. В то время как современные подходы к обучению пространственному мышлению опираются на видеоданные из реального мира, получение разнообразных видеоматериалов с точными пространственными аннотациями остается узким местом. Для решения этой проблемы мы представляем SIMS-V — систематическую框架 генерации данных, которая использует привилегированную информацию 3D-симуляторов для создания обогащенных пространственными данными видео для обучения мультимодальных языковых моделей. С помощью этой框架 мы исследуем, какие свойства синтезированных данных обеспечивают эффективный перенос в реальный мир, путем систематического абляции типов вопросов, их комбинаций и масштабов. Мы идентифицируем минимальный набор из трех категорий вопросов (метрические измерения, рассуждения, зависящие от перспективы, и временное отслеживание), которые оказываются наиболее эффективными для развития переносимого пространственного интеллекта, превосходя подходы с полным охватом, несмотря на использование меньшего количества типов вопросов. Эти инсайты позволяют проводить высокоэффективное обучение: наша 7-миллиардная видео-ЯМ, дообученная всего на 25 тыс. синтезированных примерах, превосходит более крупную 72-миллиардную базовую модель и демонстрирует конкурентоспособные результаты с проприетарными моделями на строгих бенчмарках пространственных рассуждений из реального мира. Наш подход демонстрирует robustную генерализацию, сохраняя производительность на задачах общего понимания видео и показывая существенное улучшение на воплощенных и реальных пространственных задачах.
Автоматическая оценка систем перевода речи в текст (ST) обычно выполняется путем сравнения гипотез перевода с одним или несколькими эталонными переводами. Хотя этот подход в определенной степени эффективен, он наследует ограничение оценки на основе эталонов, игнорируя ценную информацию из исходного входного сигнала. В машинном переводе (MT) недавний прогресс показал, что нейросетевые метрики, учитывающие исходный текст, достигают более сильной корреляции с человеческими оценками. Однако распространение этой идеи на ST нетривиально, поскольку источником является аудио, а не текст, а надежные расшифровки или выравнивания между источником и эталонами часто недоступны. В данной работе мы проводим первое систематическое исследование метрик, учитывающих источник, для ST, с особым акцентом на реальные условия эксплуатации, когда расшифровки исходной речи недоступны. Мы исследуем две взаимодополняющие стратегии генерации текстовых прокси входного аудио: расшифровки автоматического распознавания речи (ASR) и обратные переводы эталонного перевода, а также представляем новый двухэтапный кросс-лингвальный алгоритм повторной сегментации для решения проблемы несоответствия выравнивания между синтетическими источниками и эталонными переводами. Наши эксперименты, проведенные на двух тестовых наборах для ST, охватывающих 79 языковых пар и шесть ST-систем с различными архитектурами и уровнями производительности, показывают, что расшифровки ASR являются более надежным синтетическим источником, чем обратные переводы, когда процент ошибок по словам ниже 20%, в то время как обратные переводы всегда представляют собой вычислительно менее затратную, но все же эффективную альтернативу. Кроме того, наш алгоритм кросс-лингвальной повторной сегментации позволяет надежно использовать метрики MT, учитывающие источник, при оценке ST, прокладывая путь к более точным и принципиальным методикам оценки перевода речи.
Футбол гуманоидных роботов представляет собой репрезентативную задачу для воплощённого интеллекта, требующую от роботов работы в условиях тесно связанного цикла "восприятие-действие". Однако существующие системы обычно полагаются на разрозненные модули, что приводит к запаздывающим реакциям и несогласованному поведению в динамических средах, а ограничения реального восприятия дополнительно усугубляют эти проблемы. В данной работе мы представляем унифицированный контроллер на основе обучения с подкреплением, который позволяет гуманоидным роботам осваивать реактивные футбольные навыки за счёт прямой интеграции зрительного восприятия и управления движением. Наш подход расширяет метод Adversarial Motion Priors для условий восприятия в реальных динамических средах, создавая мост между имитацией движений и визуально обоснованным динамическим управлением. Мы предлагаем архитектуру кодировщик-декодировщик в сочетании с системой виртуального восприятия, которая моделирует характеристики реального зрительного опыта, позволяя стратегии восстанавливать привилегированные состояния из неидеальных наблюдений и устанавливать активную координацию между восприятием и действием. Полученный контроллер демонстрирует высокую реактивность, стабильно выполняя согласованные и устойчивые футбольные действия в различных сценариях, включая реальные матчи RoboCup.
Мы представляем SAIL-RL — фреймворк пост-обучения с подкреплением, который повышает способности к рассуждению мультимодальных больших языковых моделей (MLLM), обучая их тому, когда и как мыслить. Существующие подходы ограничены надзором, ориентированным только на результат (когда поощряются правильные ответы без обеспечения обоснованных рассуждений), и единообразными стратегиями мышления, которые часто приводят к излишним размышлениям на простых задачах и недостаточному анализу на сложных. SAIL-RL решает эти проблемы с помощью двойной системы вознаграждений: «Вознаграждение за мышление», которое оценивает качество рассуждений через фактическую обоснованность, логическую последовательность и согласованность с ответом, и «Вознаграждение за оценку», которое адаптивно определяет, уместно ли глубокое рассуждение или прямой ответ. Эксперименты на передовой модели SAIL-VL2 показывают, что SAIL-RL улучшает результаты на тестах рассуждений и мультимодального понимания для масштабов 4B и 8B параметров, достигая конкурентоспособной производительности по сравнению с коммерческими закрытыми моделями, такими как GPT-4o, и существенно снижает количество галлюцинаций, что подтверждает его статус принципиального фреймворка для создания более надежных и адаптивных MLLM. Код будет доступен по адресу https://github.com/BytedanceDouyinContent/SAIL-RL.