ChatPaper.aiChatPaper

TV2TV: Унифицированная структура для чередующейся генерации языка и видео

TV2TV: A Unified Framework for Interleaved Language and Video Generation

December 4, 2025
Авторы: Xiaochuang Han, Youssef Emad, Melissa Hall, John Nguyen, Karthik Padthe, Liam Robbins, Amir Bar, Delong Chen, Michal Drozdzal, Maha Elbayad, Yushi Hu, Shang-Wen Li, Sreya Dutta Roy, Jakob Verbeek, XuDong Wang, Marjan Ghazvininejad, Luke Zettlemoyer, Emily Dinan
cs.AI

Аннотация

Модели генерации видео быстро развиваются, но по-прежнему испытывают трудности с созданием сложных видеороликов, требующих значительного семантического ветвления или многократного высокоуровневого анализа последующих событий. В данной статье мы представляем новый класс универсальных видео-текстовых моделей, которые интегрируют идеи из последних достижений в области рассуждений языковых моделей для решения этой задачи. Конкретнее, мы предлагаем TV2TV — унифицированную фреймворк-модель генерации, которая разлагает создание видео на чередующийся процесс генерации текста и видео. TV2TV совместно обучает языковое моделирование (предсказание следующего токена) и matching потоков видео (предсказание следующего кадра) с использованием архитектуры Mixture-of-Transformers (MoT). На этапе вывода TV2TV решает, когда переключаться между генерацией текста и видео-кадров, позволяя модели «думать словами» о последующем содержании, прежде чем «действовать в пикселях» для создания кадров. Такой подход перекладывает значительную часть ответственности за определение последующих событий на языковой модуль, что улучшает визуальное качество и соответствие генерируемых видео заданному описанию. Это также обеспечивает детальную управляемость, позволяя пользователям изменять траекторию генерации видео с помощью текстовых вмешательств в любой момент процесса. В контролируемых экспериментах на данных видеоигр TV2TV демонстрирует существенное улучшение как визуального качества, так и управляемости. TV2TV также масштабируется на натуральные видео, что мы показываем, дополняя спортивные видеоролики чередующимися описаниями действий на естественном языке с помощью Vision-Language Models (VLM). Обучение TV2TV на этом корпусе даёт высокое визуальное качество и соответствие описанию, демонстрируя способность модели анализировать и генерировать сложные последовательности действий из реального мира. В совокупности эти результаты позиционируют TV2TV как перспективный шаг к генерации видео с открытым текстовым reasoning и контролем.
English
Video generation models are rapidly advancing, but can still struggle with complex video outputs that require significant semantic branching or repeated high-level reasoning about what should happen next. In this paper, we introduce a new class of omni video-text models that integrate ideas from recent LM reasoning advances to address this challenge. More specifically, we present TV2TV, a unified generative modeling framework which decomposes video generation into an interleaved text and video generation process. TV2TV jointly learns language modeling (next-token prediction) and video flow matching (next-frame prediction) using a Mixture-of-Transformers (MoT) architecture. At inference time, TV2TV decides when to alternate between generating text and video frames, allowing the model to "think in words" about subsequent content before ``acting in pixels'' to produce frames. This design offloads much of the responsibility for deciding what should happen next to the language modeling tower, enabling improved visual quality and prompt alignment of generated videos. It also enables fine-grained controllability, allowing users to modify the video generation trajectory through text interventions at any point in the process. In controlled experiments on video game data, TV2TV demonstrates substantial improvements in both visual quality and controllability. TV2TV also scales to natural videos, as we show by augmenting sports videos with interleaved natural language action descriptions using vision-language models (VLMs). Training TV2TV on this corpus yields strong visual quality and prompt alignment, showcasing the model's ability to reason about and generate complex real-world action sequences. Together, these results highlight TV2TV as a promising step toward video generation with open-ended textual reasoning and control.
PDF81December 6, 2025