TV2TV : Un cadre unifié pour la génération entrelacée de langage et de vidéo
TV2TV: A Unified Framework for Interleaved Language and Video Generation
December 4, 2025
papers.authors: Xiaochuang Han, Youssef Emad, Melissa Hall, John Nguyen, Karthik Padthe, Liam Robbins, Amir Bar, Delong Chen, Michal Drozdzal, Maha Elbayad, Yushi Hu, Shang-Wen Li, Sreya Dutta Roy, Jakob Verbeek, XuDong Wang, Marjan Ghazvininejad, Luke Zettlemoyer, Emily Dinan
cs.AI
papers.abstract
Les modèles de génération vidéo progressent rapidement, mais peinent encore à produire des vidéos complexes nécessitant une importante ramification sémantique ou un raisonnement de haut niveau répété sur la séquence d'événements. Dans cet article, nous présentons une nouvelle classe de modèles omni texte-vidéo qui intègrent des avancées récentes en raisonnement par modèles de langage pour relever ce défi. Plus précisément, nous proposons TV2TV, un cadre de modélisation générative unifié qui décompose la génération vidéo en un processus entrelacé de génération de texte et de vidéo. TV2TV apprend conjointement la modélisation du langage (prédiction du token suivant) et l'appariement de flux vidéo (prédiction de l'image suivante) grâce à une architecture de mixture de transformateurs. Lors de l'inférence, TV2TV décide quand alterner entre la génération de texte et d'images vidéo, permettant au modèle de « penser en mots » le contenu suivant avant « d'agir en pixels » pour produire les images. Cette conception délègue une grande partie de la décision sur la séquence d'événements à la tour de modélisation linguistique, permettant d'améliorer la qualité visuelle et l'alignement avec l'invite des vidéos générées. Elle permet également une contrôlabilité fine, autorisant les utilisateurs à modifier la trajectoire de génération vidéo via des interventions textuelles à tout moment du processus. Dans des expériences contrôlées sur des données de jeux vidéo, TV2TV démontre des améliorations substantielles en qualité visuelle et contrôlabilité. TV2TV s'adapte également aux vidéos naturelles, comme nous le montrons en enrichissant des vidéos sportives avec des descriptions d'actions en langage naturel entrelacées à l'aide de modèles vision-langage. L'entraînement de TV2TV sur ce corpus donne une forte qualité visuelle et un bon alignement avec l'invite, démontrant la capacité du modèle à raisonner sur des séquences d'actions complexes du monde réel et à les générer. Ensemble, ces résultats positionnent TV2TV comme une étape prometteuse vers la génération vidéo avec raisonnement textuel ouvert et contrôle granulaire.
English
Video generation models are rapidly advancing, but can still struggle with complex video outputs that require significant semantic branching or repeated high-level reasoning about what should happen next. In this paper, we introduce a new class of omni video-text models that integrate ideas from recent LM reasoning advances to address this challenge. More specifically, we present TV2TV, a unified generative modeling framework which decomposes video generation into an interleaved text and video generation process. TV2TV jointly learns language modeling (next-token prediction) and video flow matching (next-frame prediction) using a Mixture-of-Transformers (MoT) architecture. At inference time, TV2TV decides when to alternate between generating text and video frames, allowing the model to "think in words" about subsequent content before ``acting in pixels'' to produce frames. This design offloads much of the responsibility for deciding what should happen next to the language modeling tower, enabling improved visual quality and prompt alignment of generated videos. It also enables fine-grained controllability, allowing users to modify the video generation trajectory through text interventions at any point in the process. In controlled experiments on video game data, TV2TV demonstrates substantial improvements in both visual quality and controllability. TV2TV also scales to natural videos, as we show by augmenting sports videos with interleaved natural language action descriptions using vision-language models (VLMs). Training TV2TV on this corpus yields strong visual quality and prompt alignment, showcasing the model's ability to reason about and generate complex real-world action sequences. Together, these results highlight TV2TV as a promising step toward video generation with open-ended textual reasoning and control.