Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем TurboDiffusion — фреймворк для ускорения генерации видео, который способен ускорить сквозную диффузионную генерацию в 100–200 раз при сохранении качества видео. Основное ускорение в TurboDiffusion достигается за счет нескольких компонентов: (1) Ускорение механизма внимания: TurboDiffusion использует низкоразрядный SageAttention и обучаемый разреженно-линейный механизм внимания (SLA) для ускорения вычислений внимания. (2) Дистилляция шагов: TurboDiffusion применяет rCM для эффективной дистилляции шагов. (3) Квантование W8A8: TurboDiffusion квантует параметры модели и активации до 8 бит для ускорения линейных слоев и сжатия модели. Кроме того, TurboDiffusion включает ряд других инженерных оптимизаций. Мы провели эксперименты на моделях Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P и Wan2.1-T2V-14B-480P. Результаты экспериментов показывают, что TurboDiffusion обеспечивает ускорение генерации видео в 100–200 раз даже на одной видеокарте RTX 5090, сохраняя при этом сопоставимое качество видео. GitHub-репозиторий, включающий контрольные точки моделей и простой в использовании код, доступен по адресу https://github.com/thu-ml/TurboDiffusion.
Модели «визуальный язык» (VLM) демонстрируют превосходные результаты в задачах общего понимания, но остаются слабыми в области динамического пространственного мышления (DSR), то есть в рассуждениях об эволюции геометрии объектов и их взаимосвязей в 3D-пространстве с течением времени. Это во многом обусловлено дефицитом масштабируемых обучающих ресурсов, учитывающих 4D-информацию. Чтобы устранить этот разрыв на уровнях набора данных, бенчмарка и модели, мы представляем DSR Suite. Во-первых, мы предлагаем автоматизированный конвейер, который генерирует пары «вопрос-ответ» с множественным выбором из видеороликов реального мира для задач DSR. Используя современные базовые модели компьютерного зрения, конвейер извлекает богатую геометрическую и динамическую информацию, включая позы камер, локальные облака точек, маски объектов, ориентации и 3D-траектории. Эти геометрические подсказки позволяют создать DSR-Train для обучения и доработанный экспертами DSR-Bench для оценки. По сравнению с предыдущими работами наши данные делают акцент на (i) видеоисточниках из реального мира, (ii) требованиях к 3D-информации на уровне объектов и сцены, (iii) преобразованиях точки обзора, (iv) взаимодействиях множества объектов и (v) детальных, процедурных ответах. Помимо данных, мы предлагаем облегченный модуль выбора геометрии (GSM) для бесшовной интеграции геометрических априорных знаний в VLM. Этот модуль конденсирует семантику вопроса и извлекает релевантные для вопроса знания из предварительно обученных 4D-реконструкционных моделей в компактный набор геометрических токенов. Такая целенаправленная выборка позволяет избежать перегрузки модели нерелевантной информацией. Эксперименты показывают, что интеграция DSR-Train и GSM в модель Qwen2.5-VL-7B значительно повышает её способность к динамическому пространственному мышлению, сохраняя при этом точность на бенчмарках общего понимания видео.
Генерация видео со звуком по текстовому описанию (Text-to-Audio-Video, T2AV) ставит целью синтез временно согласованного видео и семантически синхронизированного аудио на основе естественного языка. Однако её оценка остаётся фрагментированной и часто опирается на унимодальные метрики или узкоспециализированные бенчмарки, которые не способны адекватно оценить кросс-модальное соответствие, следование инструкциям и перцептивную реалистичность при сложных запросах. Чтобы устранить этот недостаток, мы представляем T2AV-Compass — унифицированный бенчмарк для комплексной оценки систем T2AV, состоящий из 500 разнообразных и сложных промптов, созданных по таксономически управляемому конвейеру для обеспечения семантической насыщенности и физической правдоподобности. Кроме того, T2AV-Compass вводит двухуровневую систему оценки, которая интегрирует объективные сигнальные метрики для оценки качества видео, качества аудио и кросс-модального соответствия с субъективным протоколом MLLM-as-a-Judge для оценки следования инструкциям и реалистичности. Обширная оценка 11 репрезентативных систем T2AV показывает, что даже самые мощные модели существенно не дотягивают до уровня человеческой реалистичности и кросс-модальной согласованности, демонстрируя устойчивые проблемы с реалистичностью аудио, тонкой синхронизацией, следованием инструкциям и т.д. Эти результаты указывают на значительный простор для улучшения будущих моделей и подчёркивают ценность T2AV-Compass как сложного и диагностического тестового набора для продвижения в области генерации видео со звуком по текстовому описанию.
Техника «одного кадра» представляет собой самобытную и сложную эстетику кинематографа. Однако её практическая реализация часто сталкивается с непомерными затратами и сложными ограничениями реального мира. Хотя появляющиеся модели генерации видео предлагают виртуальную альтернативу, существующие подходы обычно полагаются на наивную конкатенацию клипов, что часто не позволяет обеспечить визуальную плавность и временную согласованность. В данной статье мы представляем DreaMontage — комплексную структуру, разработанную для произвольной генерации на основе кадров, способную синтезировать бесшовные, выразительные и продолжительные видео в стиле «одного кадра» из разнообразных пользовательских данных. Для достижения этой цели мы решаем задачу по трём основным направлениям. (i) Мы интегрируем в архитектуру DiT облегчённый механизм промежуточного кондиционирования. Используя стратегию Adaptive Tuning, которая эффективно задействует данные базового обучения, мы раскрываем возможности надёжного произвольного управления по кадрам. (ii) Для повышения визуального качества и кинематографической выразительности мы создаём высококачественный набор данных и внедряем этап тонкой настройки Visual Expression SFT. Решая ключевые проблемы, такие как правдоподобность движения объекта и плавность переходов, мы применяем специализированную схему Tailored DPO, что существенно повышает процент успешных результатов и практическую применимость генерируемого контента. (iii) Для упрощения создания протяжённых последовательностей мы разрабатываем сегментную авторегрессионную стратегию вывода, работающую с эффективным использованием памяти. Многочисленные эксперименты демонстрируют, что наш подход позволяет достигать визуально впечатляющих и бесшовно согласованных эффектов «одного кадра» при сохранении вычислительной эффективности, давая пользователям возможность преобразовывать фрагментированные визуальные материалы в яркие, целостные кинематографические впечатления в формате одного кадра.
Мы выявляем значительную предвзятость к популярности в современных моделях «визуальный язык» (VLMs), которые демонстрируют до 34% более высокую точность в распознавании известных зданий по сравнению с обычными, что указывает на зависимость от запоминания, а не от обобщающего понимания. Для систематического исследования этой проблемы мы представляем самый крупный открытый бенчмарк для данной задачи: набор данных YearGuessr, включающий 55 546 изображений зданий с мультимодальными атрибутами из 157 стран, аннотированных непрерывными порядковыми метками года постройки (1001–2024), GPS-данными и количеством просмотров страниц в качестве показателя популярности. Используя этот набор данных, мы формулируем задачу предсказания года постройки как порядковую регрессию и вводим метрики точности с учётом популярности для количественной оценки этого смещения. Наш итоговый бенчмарк, включающий более 30 моделей (в том числе нашу модель YearCLIP), подтверждает, что VLMs превосходно справляются с популярными, запомненными объектами, но значительно затрудняются с нераспознанными сюжетами, что выявляет критический недостаток в их способностях к рассуждению. Страница проекта: https://sytwu.github.io/BeyondMemo/
Мы представляем Nemotron 3 Nano 30B-A3B — гибридную языковую модель типа «смесь экспертов» (Mixture-of-Experts), построенную на архитектуре Mamba-Transformer. Модель Nemotron 3 Nano была предварительно обучена на 25 триллионах текстовых токенов, включая более 3 триллионов новых уникальных токенов по сравнению с Nemotron 2, после чего прошла контролируемое тонкое настройку и масштабное обучение с подкреплением в разнообразных средах. Nemotron 3 Nano демонстрирует более высокую точность, чем наше предыдущее поколение Nemotron 2 Nano, при этом активируя менее половины параметров за один прямой проход. Она обеспечивает до 3,3 раза более высокую пропускную способность при выводе, чем модели аналогичного размера, такие как GPT-OSS-20B и Qwen3-30B-A3B-Thinking-2507, а также показывает более высокую точность на популярных бенчмарках. Nemotron 3 Nano демонстрирует улучшенные агентские, логические и чат-способности и поддерживает контекст длиной до 1 миллиона токенов. Мы публикуем как предварительно обученную базовую модель Nemotron 3 Nano 30B-A3B Base, так и дообученные контрольные точки Nemotron 3 Nano 30B-A3B на платформе Hugging Face.
Создание видео высокого разрешения, несмотря на свою важность для цифровых медиа и кинематографа, сталкивается с вычислительными ограничениями из-за квадратичной сложности диффузионных моделей, что делает практический вывод неосуществимым. Для решения этой проблемы мы представляем HiStream — эффективную авторегрессионную архитектуру, которая систематически снижает избыточность по трем направлениям: i) Пространственное сжатие: удаление шума при низком разрешении с последующим уточнением в высоком разрешении с использованием кэшированных признаков; ii) Временное сжатие: пофрагментная стратегия с кэшем фиксированного размера, обеспечивающая стабильную скорость вывода; и iii) Сжатие по временным шагам: применение меньшего количества шагов удаления шума к последующим фрагментам, обусловленным кэшем. На тестах с разрешением 1080p наша основная модель HiStream (i+ii) демонстрирует наилучшее визуальное качество, ускоряя удаление шума до 76.2 раз по сравнению с базовым Wan2.1 при незначительной потере качества. Наша ускоренная версия, HiStream+, применяет все три оптимизации (i+ii+iii), достигая ускорения в 107.5 раз относительно базового уровня и предлагая оптимальный баланс между скоростью и качеством, что делает генерацию видео высокого разрешения практичной и масштабируемой.
Мы представляем семейство моделей Nemotron 3 — Nano, Super и Ultra. Эти модели обладают мощными агентскими, логическими и диалоговыми возможностями. Семейство Nemotron 3 использует гибридную архитектуру Mixture-of-Experts на основе Mamba-Transformer, что обеспечивает наилучшую в своем классе пропускную способность и длину контекста до 1 млн токенов. Модели Super и Ultra обучены с использованием NVFP4 и включают LatentMoE — новый подход, повышающий качество модели. Две старшие модели также содержат MTP-слои для ускоренного генерации текста. Все модели Nemotron 3 прошли пост-обучение с подкреплением в многопоточной среде, что обеспечило развитие логического мышления, многошагового использования инструментов и поддержку детального контроля вычислительного бюджета для рассуждений. Nano, самая компактная модель, превосходит аналоги по точности, оставаясь чрезвычайно экономичной для вывода. Super оптимизирована для совместной работы агентов и задач с высокой нагрузкой, таких как автоматизация обработки IT-заявок. Ultra, самая крупная модель, демонстрирует передовую точность и производительность в логических задачах. Модель Nano выпускается вместе с техническим отчетом и настоящим white paper, тогда как Super и Ultra последуют в ближайшие месяцы. Мы открыто опубликуем веса моделей, программное обеспечение для предварительного и пост-обучения, рецепты обучения и все данные, на распространение которых у нас есть права.
Токенизаторы обеспечивают фундаментальную основу для представления и обработки текста языковыми моделями (language models, LM). Несмотря на важность токенизации, её влияние на производительность и поведение языковых моделей остается малоизученным из-за сложности оценки изолированного воздействия токенизации. Для решения этой задачи мы представляем TokSuite — набор моделей и бенчмарк, предназначенные для исследования влияния токенизации на языковые модели. В частности, мы обучаем четырнадцать моделей с разными токенизаторами, но идентичных во всех остальных отношениях: по архитектуре, набору данных, бюджету обучения и инициализации. Дополнительно мы разрабатываем и публикуем новый бенчмарк, который специально оценивает производительность моделей при воздействии реальных возмущений, способных повлиять на токенизацию. В совокупности TokSuite позволяет надежно отделить влияние токенизатора модели, что способствует серии новых открытий, проясняющих преимущества и недостатки широкого спектра популярных токенизаторов.
Агентное обучение с подкреплением все больше полагается на масштабирование, основанное на опыте, однако реальные среды остаются неадаптивными, ограниченными по охвату и сложными для масштабирования. Мировые модели предлагают потенциальный путь повышения эффективности обучения через симулированный опыт, но остается неясным, могут ли большие языковые модели надежно выполнять эту роль и при каких условиях они приносят агентам значимую пользу. Мы исследуем эти вопросы в текстовых средах, которые предоставляют контролируемые условия для переосмысления языкового моделирования как предсказания следующего состояния в процессе взаимодействия. Мы представляем трехуровневую структуру для оценки мировых моделей на основе БЯМ: (i) точность и согласованность, (ii) масштабируемость и устойчивость, и (iii) полезность для агента. В пяти репрезентативных средах мы обнаруживаем, что достаточно обученные мировые модели сохраняют согласованное латентное состояние, масштабируются предсказуемо с объемом данных и размером модели и улучшают производительность агента через проверку действий, генерацию синтетических траекторий и предварительную инициализацию обучения с подкреплением. В то же время эти преимущества критически зависят от поведенческого охвата и сложности среды, определяя четкие границы того, когда моделирование мира эффективно поддерживает обучение агента.
Последние достижения в предварительном обучении универсальных базовых моделей значительно повысили производительность в разнообразных downstream-задачах. Хотя авторегрессионные (AR) генеративные модели, такие как GPT, произвели революцию в NLP, большинство методов визуального генеративного предварительного обучения по-прежнему полагаются на маскированное моделирование в стиле BERT, которое часто игнорирует временную информацию, необходимую для анализа видео. Немногочисленные существующие авторегрессионные методы визуального предварительного обучения страдают от таких проблем, как неточная семантическая локализация и низкое качество генерации, что приводит к плохой семантике. В данной работе мы предлагаем NExT-Vid — новую авторегрессионную визуальную генеративную структуру предварительного обучения, которая использует маскированное предсказание следующего кадра для совместного моделирования изображений и видео. NExT-Vid представляет контекстно-изолированный авторегрессионный предиктор для разделения семантического представления и декодирования цели, а также условный декодер с согласованием потоков для повышения качества и разнообразия генерации. Благодаря контекстно-изолированному предварительному обучению с согласованием потоков наш подход достигает мощных представлений. Многочисленные эксперименты на крупномасштабных предобученных моделях демонстрируют, что предложенный метод последовательно превосходит предыдущие генеративные методы предварительного обучения для визуального представления при проверке посредством внимания в downstream-классификации.
Мы представляем Streamo — модель крупных языковых моделей (LLM) для потокового видео в реальном времени, которая функционирует как универсальный интерактивный ассистент. В отличие от существующих онлайн-моделей для видео, ориентированных исключительно на ответы на вопросы или генерацию субтитров, Streamo выполняет широкий спектр задач обработки потокового видео, включая нарратив в реальном времени, понимание действий, описание событий, временную привязку событий и ответы на вопросы с учетом временного контекста. Для достижения такой универсальности мы создали Streamo-Instruct-465K — масштабный набор данных с инструкциями, адаптированный для понимания потокового видео. Этот набор данных охватывает разнообразные временные контексты и многозадачное обучение, что позволяет осуществлять унифицированное обучение для разнородных потоковых задач. После сквозного обучения на наборе данных с инструкциями с использованием оптимизированного конвейера Streamo демонстрирует развитые способности к временному анализу, оперативному взаимодействию и широкую обобщающую способность в различных тестах для потокового видео. Многочисленные эксперименты показывают, что Streamo преодолевает разрыв между офлайн-моделями восприятия видео и ассистентами реального времени для мультимодальных данных, делая шаг к унифицированному интеллектуальному анализу видео в непрерывных видеопотоках.
Метод генерации с расширением выборки (RAG) стал мощной парадигмой для больших языковых моделей (LLM), позволяющей решать сложные запросы, требующие предметно-ориентированной или актуальной информации. Для обработки сложных многошаговых вопросов, которые трудно решить с помощью одношаговой выборки, были предложены итеративные подходы RAG, включающие обучение с подкреплением. Однако существующие итеративные RAG-системы обычно планируют декомпозицию вопросов без учета информации о доступном корпусе для выборки, что приводит к неэффективной выборке и цепочкам рассуждений, каскадно ухудшающим производительность. В данной статье мы представляем раннее согласование знаний (EKA) — простой, но эффективный модуль, который согласует LLM с набором для выборки до этапа планирования в итеративных RAG-системах, используя контекстно-релевантные извлеченные знания. Обширные эксперименты на шести стандартных наборах данных RAG демонстрируют, что за счет создания более прочной основы для рассуждений EKA значительно повышает точность выборки, сокращает каскадные ошибки и улучшает как производительность, так и эффективность. Наш анализ с энтропийной точки зрения показывает, что включение ранних знаний снижает избыточное исследование в процессе рассуждений, позволяя модели эффективнее фокусироваться на релевантных подмножествах информации. Более того, EKA доказал свою эффективность в качестве универсальной стратегии вывода, не требующей дообучения и легко масштабируемой на большие модели. Тесты на обобщение для различных наборов данных и корпусов выборки подтверждают надежность нашего подхода. В целом, EKA продвигает состояние дел в итеративных RAG-системах, одновременно проясняя критическое взаимодействие между структурированными рассуждениями и эффективным исследованием в рамках, усиленных обучением с подкреплением. Код доступен по адресу https://github.com/yxzwang/EarlyKnowledgeAlignment{Github}.
Существующие бенчмарки для ИИ-агентов программирования сосредоточены на изолированных, одношаговых задачах, таких как исправление ошибки или реализация небольшой функции. Однако реальная разработка программного обеспечения по своей сути является долгосрочным процессом: разработчики должны интерпретировать высокоуровневые требования, планировать согласованные изменения во множестве файлов и развивать кодобазы в течение множества итераций, сохраняя при этом существующую функциональность. Мы представляем SWE-EVO — бенчмарк, который оценивает агентов именно в рамках этой долгосрочной задачи эволюции программного обеспечения. Построенный на основе примечаний к выпускам и истории версий семи зрелых проектов на Python, Tool включает 48 задач по эволюции, требующих от агентов реализации многошаговых изменений, затрагивающих в среднем 21 файл, с последующей проверкой с помощью комплексных наборов тестов, в среднем по 874 теста на экземпляр. Эксперименты с современными моделями выявляют разительный разрыв в возможностях: даже GPT-5 с OpenHands достигает уровня успешного решения лишь в 21% случаев на Tool, по сравнению с 65% на одношаговом SWE-Bench Verified. Это демонстрирует, что текущие агенты испытывают трудности с продолжительным, межфайловым логическим выводом. Мы также предлагаем метрику Fix Rate (Уровень исправления), которая фиксирует частичный прогресс в решении этих сложных, долгосрочных задач.
В данной работе мы представляем PhononBench — первый крупномасштабный бенчмарк для оценки динамической стабильности кристаллов, созданных с помощью искусственного интеллекта. Используя недавно разработанный межатомный потенциал MatterSim, который обеспечивает точность предсказаний фононов на уровне теории функционала плотности для более чем 10 000 материалов, PhononBench позволяет проводить эффективные крупномасштабные фононные расчеты и анализ динамической стабильности для 108 843 кристаллических структур, сгенерированных шестью ведущими моделями генерации кристаллов. PhononBench выявляет широко распространенное ограничение современных генеративных моделей в обеспечении динамической стабильности: средний показатель динамической стабильности для всех сгенерированных структур составляет лишь 25,83%, при этом лучшая модель, MatterGen, достигает всего 41,0%. Дальнейшие case-исследования показывают, что при генерации, направленной на целевые свойства — проиллюстрированной здесь условием на ширину запрещенной зоны с помощью MatterGen, — уровень динамической стабильности остается столь же низким (23,5%) даже при оптимальном условии для ширины запрещенной зоны в 0,5 эВ. При генерации с контролем пространственной группы кристаллы с более высокой симметрией демонстрируют лучшую стабильность (например, кубические системы достигают показателей до 49,2%), однако средняя стабильность по всем контролируемым генерациям все еще составляет лишь 34,4%. Важным дополнительным результатом данного исследования является идентификация 28 119 кристаллических структур, которые являются фононно-стабильными во всей зоне Бриллюэна, что предоставляет значительный пул надежных кандидатов для будущих исследований материалов. Устанавливая первый крупномасштабный бенчмарк динамической стабильности, данная работа систематически выявляет текущие ограничения моделей генерации кристаллов и предлагает важные критерии оценки и руководство для их будущего развития в направлении проектирования и открытия физически реализуемых материалов. Все сгенерированные моделями кристаллические структуры, результаты фононных расчетов и разработанные в PhononBench высокопроизводительные рабочие процессы оценки будут открыто опубликованы по адресу https://github.com/xqh19970407/PhononBench.
Быстрая пролиферация больших языковых моделей (LLM) и разнообразных специализированных бенчмарков требует перехода от фрагментированных, специфичных для задач метрик к целостной конкурентной системе ранжирования, которая эффективно агрегирует производительность по множеству измерений способностей. Современные методы оценки, основанные преимущественно на статическом подсчете очков, имеют фундаментальные ограничения. Они не позволяют определить оптимальное соотношение весов для различных бенчмарков и, что критически важно, не способны оценить динамическую конкурентную пригодность модели или ее уязвимость при решении последовательных задач с высокой ставкой. Для решения этой проблемы мы представляем новую систему конкурентной динамики по швейцарской системе (КДШС). КДШС моделирует многораундовое последовательное соревнование, в котором модели динамически подбираются в пары на основе их накопленных побед и поражений в рамках курируемой последовательности бенчмарков. Для аппроксимации статистически устойчивого Ожидаемого счета побед (E[S_m]), который исключает шум случайного спаривания и везения в начальных раундах, используется метод Монте-Карло (N=100 000 итераций). Кроме того, мы реализуем Анализ чувствительности к отказам путем параметризации количества исключаемых участников за раунд (T_k), что позволяет нам классифицировать модели на основе их склонности к риску — различая устойчивых универсалов и агрессивных специалистов. Мы демонстрируем, что КДШС обеспечивает более детальное и контекстно-зависимое ранжирование по сравнению с традиционным агрегированным подсчетом очков и статическими парными моделями, представляя собой важный шаг на пути к оценке LLM следующего поколения с учетом рисков.