TV2TV: Un Marco Unificado para la Generación Entrelazada de Lenguaje y Video
TV2TV: A Unified Framework for Interleaved Language and Video Generation
December 4, 2025
Autores: Xiaochuang Han, Youssef Emad, Melissa Hall, John Nguyen, Karthik Padthe, Liam Robbins, Amir Bar, Delong Chen, Michal Drozdzal, Maha Elbayad, Yushi Hu, Shang-Wen Li, Sreya Dutta Roy, Jakob Verbeek, XuDong Wang, Marjan Ghazvininejad, Luke Zettlemoyer, Emily Dinan
cs.AI
Resumen
Los modelos de generación de vídeo avanzan rápidamente, pero aún pueden tener dificultades para producir vídeos complejos que requieran una ramificación semántica significativa o un razonamiento de alto nivel repetido sobre lo que debería suceder a continuación. En este artículo, presentamos una nueva clase de modelos omni vídeo-texto que integran ideas de los recientes avances en razonamiento de modelos de lenguaje (LM) para abordar este desafío. Más específicamente, presentamos TV2TV, un marco de modelado generativo unificado que descompone la generación de vídeo en un proceso entrelazado de generación de texto y vídeo. TV2TV aprende conjuntamente el modelado del lenguaje (predicción del siguiente token) y el flujo de correspondencia de vídeo (predicción del siguiente fotograma) utilizando una arquitectura de Mezcla de Transformadores (MoT). En el momento de la inferencia, TV2TV decide cuándo alternar entre la generación de texto y fotogramas de vídeo, permitiendo que el modelo "piense con palabras" sobre el contenido subsiguiente antes de "actuar en píxeles" para producir los fotogramas. Este diseño descarga gran parte de la responsabilidad de decidir lo que debe suceder a continuación en la torre de modelado del lenguaje, permitiendo una mejora en la calidad visual y la alineación con el prompt de los vídeos generados. También permite una controlabilidad granular, permitiendo a los usuarios modificar la trayectoria de generación del vídeo mediante intervenciones de texto en cualquier punto del proceso. En experimentos controlados con datos de videojuegos, TV2TV demuestra mejoras sustanciales tanto en calidad visual como en controlabilidad. TV2TV también escala a vídeos naturales, como mostramos al aumentar vídeos deportivos con descripciones de acción en lenguaje natural entrelazadas, utilizando modelos de visión y lenguaje (VLM). Entrenar TV2TV en este corpus produce una alta calidad visual y alineación con el prompt, mostrando la capacidad del modelo para razonar y generar secuencias de acción complejas del mundo real. En conjunto, estos resultados destacan a TV2TV como un paso prometedor hacia la generación de vídeo con razonamiento textual y control de final abierto.
English
Video generation models are rapidly advancing, but can still struggle with complex video outputs that require significant semantic branching or repeated high-level reasoning about what should happen next. In this paper, we introduce a new class of omni video-text models that integrate ideas from recent LM reasoning advances to address this challenge. More specifically, we present TV2TV, a unified generative modeling framework which decomposes video generation into an interleaved text and video generation process. TV2TV jointly learns language modeling (next-token prediction) and video flow matching (next-frame prediction) using a Mixture-of-Transformers (MoT) architecture. At inference time, TV2TV decides when to alternate between generating text and video frames, allowing the model to "think in words" about subsequent content before ``acting in pixels'' to produce frames. This design offloads much of the responsibility for deciding what should happen next to the language modeling tower, enabling improved visual quality and prompt alignment of generated videos. It also enables fine-grained controllability, allowing users to modify the video generation trajectory through text interventions at any point in the process. In controlled experiments on video game data, TV2TV demonstrates substantial improvements in both visual quality and controllability. TV2TV also scales to natural videos, as we show by augmenting sports videos with interleaved natural language action descriptions using vision-language models (VLMs). Training TV2TV on this corpus yields strong visual quality and prompt alignment, showcasing the model's ability to reason about and generate complex real-world action sequences. Together, these results highlight TV2TV as a promising step toward video generation with open-ended textual reasoning and control.