ChatPaper.aiChatPaper

TV2TV: Ein einheitlicher Rahmenwerk für verzahnte Sprach- und Videogenerierung

TV2TV: A Unified Framework for Interleaved Language and Video Generation

December 4, 2025
papers.authors: Xiaochuang Han, Youssef Emad, Melissa Hall, John Nguyen, Karthik Padthe, Liam Robbins, Amir Bar, Delong Chen, Michal Drozdzal, Maha Elbayad, Yushi Hu, Shang-Wen Li, Sreya Dutta Roy, Jakob Verbeek, XuDong Wang, Marjan Ghazvininejad, Luke Zettlemoyer, Emily Dinan
cs.AI

papers.abstract

Videogenerationsmodelle entwickeln sich rasant, haben aber nach wie vor Schwierigkeiten mit komplexen Videoausgaben, die signifikante semantische Verzweigungen oder wiederholtes höherstufiges Schlussfolgern darüber erfordern, was als Nächstes geschehen soll. In diesem Artikel stellen wir eine neue Klasse von Omni-Video-Text-Modellen vor, die Ideen aus jüngsten Fortschritten im Bereich des Sprachmodell-Reasonings integrieren, um diese Herausforderung zu bewältigen. Konkret präsentieren wir TV2TV, einen einheitlichen generativen Modellierungsrahmen, der die Videogenerierung in einen verschachtelten Text- und Videogenerierungsprozess zerlegt. TV2TV erlernt gemeinsam Sprachmodellierung (Next-Token-Prediction) und Video-Flow-Matching (Next-Frame-Prediction) unter Verwendung einer Mixture-of-Transformers (MoT)-Architektur. Zum Inferenzzeitpunkt entscheidet TV2TV, wann zwischen der Generierung von Text und Videobildern gewechselt werden soll, sodass das Modell über nachfolgende Inhalte „in Worten nachdenken“ kann, bevor es „in Pixeln handelt“, um Bilder zu erzeugen. Dieses Design lagert einen Großteil der Verantwortung für die Entscheidung, was als Nächstes passieren soll, auf den Sprachmodellierungsturm aus und ermöglicht so eine verbesserte visuelle Qualität und Prompt-Treue der generierten Videos. Es ermöglicht auch eine feinkörnige Steuerbarkeit, da Benutzer den Videogenerierungspfad durch Texteingriffe an beliebiger Stelle im Prozess modifizieren können. In kontrollierten Experimenten mit Videospieldaten zeigt TV2TV substantiale Verbesserungen sowohl in der visuellen Qualität als auch in der Steuerbarkeit. TV2TV skaliert auch auf natürliche Videos, wie wir durch die Anreicherung von Sportvideos mit verschachtelten natürlichen Sprachaktionsbeschreibungen mithilfe von Vision-Language-Modellen (VLMs) demonstrieren. Das Training von TV2TV auf diesem Korpus führt zu einer hohen visuellen Qualität und Prompt-Treue und unterstreicht die Fähigkeit des Modells, komplexe Handlungssequenzen der realen Welt zu schlussfolgern und zu generieren. Zusammengenommen heben diese Ergebnisse TV2TV als einen vielversprechenden Schritt in Richtung Videogenerierung mit offenem textuellen Reasoning und Steuerung hervor.
English
Video generation models are rapidly advancing, but can still struggle with complex video outputs that require significant semantic branching or repeated high-level reasoning about what should happen next. In this paper, we introduce a new class of omni video-text models that integrate ideas from recent LM reasoning advances to address this challenge. More specifically, we present TV2TV, a unified generative modeling framework which decomposes video generation into an interleaved text and video generation process. TV2TV jointly learns language modeling (next-token prediction) and video flow matching (next-frame prediction) using a Mixture-of-Transformers (MoT) architecture. At inference time, TV2TV decides when to alternate between generating text and video frames, allowing the model to "think in words" about subsequent content before ``acting in pixels'' to produce frames. This design offloads much of the responsibility for deciding what should happen next to the language modeling tower, enabling improved visual quality and prompt alignment of generated videos. It also enables fine-grained controllability, allowing users to modify the video generation trajectory through text interventions at any point in the process. In controlled experiments on video game data, TV2TV demonstrates substantial improvements in both visual quality and controllability. TV2TV also scales to natural videos, as we show by augmenting sports videos with interleaved natural language action descriptions using vision-language models (VLMs). Training TV2TV on this corpus yields strong visual quality and prompt alignment, showcasing the model's ability to reason about and generate complex real-world action sequences. Together, these results highlight TV2TV as a promising step toward video generation with open-ended textual reasoning and control.
PDF81December 6, 2025