TV2TV: Uma Estrutura Unificada para Geração Entrelaçada de Linguagem e Vídeo
TV2TV: A Unified Framework for Interleaved Language and Video Generation
December 4, 2025
Autores: Xiaochuang Han, Youssef Emad, Melissa Hall, John Nguyen, Karthik Padthe, Liam Robbins, Amir Bar, Delong Chen, Michal Drozdzal, Maha Elbayad, Yushi Hu, Shang-Wen Li, Sreya Dutta Roy, Jakob Verbeek, XuDong Wang, Marjan Ghazvininejad, Luke Zettlemoyer, Emily Dinan
cs.AI
Resumo
Os modelos de geração de vídeo estão avançando rapidamente, mas ainda podem ter dificuldades com saídas de vídeo complexas que exigem ramificação semântica significativa ou raciocínio de alto nível repetido sobre o que deve acontecer a seguir. Neste artigo, introduzimos uma nova classe de modelos omni vídeo-texto que integram ideias de avanços recentes em raciocínio de modelos de linguagem (LM) para enfrentar este desafio. Mais especificamente, apresentamos o TV2TV, uma estrutura de modelagem generativa unificada que decompõe a geração de vídeo em um processo de geração entrelaçada de texto e vídeo. O TV2TV aprende conjuntamente a modelagem de linguagem (previsão do próximo token) e o fluxo de vídeo correspondente (previsão do próximo frame) usando uma arquitetura de Mistura de Transformadores (MoT). No tempo de inferência, o TV2TV decide quando alternar entre a geração de texto e de frames de vídeo, permitindo que o modelo "pense em palavras" sobre o conteúdo subsequente antes de "agir em pixels" para produzir os frames. Este projeto transfere grande parte da responsabilidade de decidir o que deve acontecer a seguir para a torre de modelagem de linguagem, permitindo uma qualidade visual melhorada e um melhor alinhamento com o prompt nos vídeos gerados. Também permite uma controlabilidade refinada, permitindo que os utilizadores modifiquem a trajetória de geração de vídeo através de intervenções de texto em qualquer ponto do processo. Em experiências controladas com dados de videojogos, o TV2TV demonstra melhorias substanciais tanto na qualidade visual quanto na controlabilidade. O TV2TV também escala para vídeos naturais, como mostramos ao aumentar vídeos desportivos com descrições de ação em linguagem natural entrelaçadas, usando modelos visão-linguagem (VLM). Treinar o TV2TV neste corpus produz uma forte qualidade visual e alinhamento com o prompt, mostrando a capacidade do modelo de raciocinar sobre e gerar sequências de ação complexas do mundo real. Juntos, estes resultados destacam o TV2TV como um passo promissor em direção à geração de vídeo com raciocínio textual e controlo de final aberta.
English
Video generation models are rapidly advancing, but can still struggle with complex video outputs that require significant semantic branching or repeated high-level reasoning about what should happen next. In this paper, we introduce a new class of omni video-text models that integrate ideas from recent LM reasoning advances to address this challenge. More specifically, we present TV2TV, a unified generative modeling framework which decomposes video generation into an interleaved text and video generation process. TV2TV jointly learns language modeling (next-token prediction) and video flow matching (next-frame prediction) using a Mixture-of-Transformers (MoT) architecture. At inference time, TV2TV decides when to alternate between generating text and video frames, allowing the model to "think in words" about subsequent content before ``acting in pixels'' to produce frames. This design offloads much of the responsibility for deciding what should happen next to the language modeling tower, enabling improved visual quality and prompt alignment of generated videos. It also enables fine-grained controllability, allowing users to modify the video generation trajectory through text interventions at any point in the process. In controlled experiments on video game data, TV2TV demonstrates substantial improvements in both visual quality and controllability. TV2TV also scales to natural videos, as we show by augmenting sports videos with interleaved natural language action descriptions using vision-language models (VLMs). Training TV2TV on this corpus yields strong visual quality and prompt alignment, showcasing the model's ability to reason about and generate complex real-world action sequences. Together, these results highlight TV2TV as a promising step toward video generation with open-ended textual reasoning and control.