ChatPaper.aiChatPaper

TV2TV: Een uniform raamwerk voor geïnterleaveerde taal- en videogeneratie

TV2TV: A Unified Framework for Interleaved Language and Video Generation

December 4, 2025
Auteurs: Xiaochuang Han, Youssef Emad, Melissa Hall, John Nguyen, Karthik Padthe, Liam Robbins, Amir Bar, Delong Chen, Michal Drozdzal, Maha Elbayad, Yushi Hu, Shang-Wen Li, Sreya Dutta Roy, Jakob Verbeek, XuDong Wang, Marjan Ghazvininejad, Luke Zettlemoyer, Emily Dinan
cs.AI

Samenvatting

Videogeneratiemodellen ontwikkelen zich snel, maar hebben nog steeds moeite met complexe video-uitvoer die aanzienlijke semantische vertakking vereist of herhaaldelijk hoogwaardig redeneren over wat er vervolgens moet gebeuren. In dit artikel introduceren we een nieuwe klasse van omni video-tekstmodellen die ideeën integreren uit recente vooruitgang in LM-redenering om deze uitdaging aan te pakken. Meer specifiek presenteren we TV2TV, een uniform generatief modelleerkader dat videogeneratie ontleedt in een geïnterlinieerd tekst- en videogeneratieproces. TV2TV leert gezamenlijk taalmodelering (volgende-token-voorspelling) en video flow matching (volgende-frame-voorspelling) met behulp van een Mixture-of-Transformers (MoT)-architectuur. Tijdens inferentie beslist TV2TV wanneer moet worden afgewisseld tussen het genereren van tekst en videoframes, waardoor het model in woorden kan "denken" over vervolginhoud alvorens "in pixels te handelen" om frames te produceren. Dit ontwerp schuift een groot deel van de verantwoordelijkheid voor het beslissen wat er vervolgens moet gebeuren af naar de taalmodelleertoren, wat een verbeterde visuele kwaliteit en promptafstemming van gegenereerde video's mogelijk maakt. Het maakt ook fijnmazige bestuurbaarheid mogelijk, waardoor gebruikers het videogeneratietraject kunnen wijzigen via tekstinterventies op elk punt in het proces. In gecontroleerde experimenten met videogamedata toont TV2TV aanzienlijke verbeteringen in zowel visuele kwaliteit als bestuurbaarheid. TV2TV schaalt ook naar natuurlijke video's, zoals we aantonen door sportvideo's aan te vullen met geïnterlinieerde actiebeschrijvingen in natuurlijke taal met behulp van vision-language models (VLMs). Het trainen van TV2TV op dit corpus resulteert in een sterke visuele kwaliteit en promptafstemming, wat het vermogen van het model aantoont om complexe actiesequenties uit de echte wereld te redeneren en genereren. Samen benadrukken deze resultaten TV2TV als een veelbelovende stap richting videogeneratie met open-ended tekstueel redeneren en controle.
English
Video generation models are rapidly advancing, but can still struggle with complex video outputs that require significant semantic branching or repeated high-level reasoning about what should happen next. In this paper, we introduce a new class of omni video-text models that integrate ideas from recent LM reasoning advances to address this challenge. More specifically, we present TV2TV, a unified generative modeling framework which decomposes video generation into an interleaved text and video generation process. TV2TV jointly learns language modeling (next-token prediction) and video flow matching (next-frame prediction) using a Mixture-of-Transformers (MoT) architecture. At inference time, TV2TV decides when to alternate between generating text and video frames, allowing the model to "think in words" about subsequent content before ``acting in pixels'' to produce frames. This design offloads much of the responsibility for deciding what should happen next to the language modeling tower, enabling improved visual quality and prompt alignment of generated videos. It also enables fine-grained controllability, allowing users to modify the video generation trajectory through text interventions at any point in the process. In controlled experiments on video game data, TV2TV demonstrates substantial improvements in both visual quality and controllability. TV2TV also scales to natural videos, as we show by augmenting sports videos with interleaved natural language action descriptions using vision-language models (VLMs). Training TV2TV on this corpus yields strong visual quality and prompt alignment, showcasing the model's ability to reason about and generate complex real-world action sequences. Together, these results highlight TV2TV as a promising step toward video generation with open-ended textual reasoning and control.
PDF162December 21, 2025