ChatPaper.aiChatPaper

TV2TV: Un Framework Unificato per la Generazione Intervallata di Linguaggio e Video

TV2TV: A Unified Framework for Interleaved Language and Video Generation

December 4, 2025
Autori: Xiaochuang Han, Youssef Emad, Melissa Hall, John Nguyen, Karthik Padthe, Liam Robbins, Amir Bar, Delong Chen, Michal Drozdzal, Maha Elbayad, Yushi Hu, Shang-Wen Li, Sreya Dutta Roy, Jakob Verbeek, XuDong Wang, Marjan Ghazvininejad, Luke Zettlemoyer, Emily Dinan
cs.AI

Abstract

I modelli di generazione video stanno progredendo rapidamente, ma possono ancora incontrare difficoltà con output video complessi che richiedono una significativa ramificazione semantica o un ragionamento di alto livello ripetuto su ciò che dovrebbe accadere dopo. In questo articolo, introduciamo una nuova classe di modelli omni video-testo che integrano idee dai recenti progressi nel ragionamento dei modelli linguistici (LM) per affrontare questa sfida. Più specificamente, presentiamo TV2TV, un framework di modellazione generativa unificato che scompone la generazione video in un processo di generazione intervallato di testo e video. TV2TV apprende congiuntamente la modellazione linguistica (previsione del token successivo) e il flusso video matching (previsione del fotogramma successivo) utilizzando un'architettura Mixture-of-Transformers (MoT). Al momento dell'inferenza, TV2TV decide quando alternare la generazione di testo e fotogrammi video, consentendo al modello di "pensare in parole" il contenuto successivo prima di "agire in pixel" per produrre i fotogrammi. Questo progetto delega gran parte della responsabilità di decidere cosa debba accadere dopo alla torre di modellazione linguistica, consentendo una migliore qualità visiva e un migliore allineamento con il prompt dei video generati. Abilita inoltre una controllabilità granulare, permettendo agli utenti di modificare la traiettoria di generazione video attraverso interventi testuali in qualsiasi punto del processo. In esperimenti controllati su dati di videogiochi, TV2TV dimostra miglioramenti sostanziali sia nella qualità visiva che nella controllabilità. TV2TV scala anche per video naturali, come mostriamo arricchendo video sportivi con descrizioni azionali in linguaggio naturale intervallate, utilizzando modelli visione-linguaggio (VLM). L'addestramento di TV2TV su questo corpus restituisce una forte qualità visiva e allineamento al prompt, dimostrando la capacità del modello di ragionare e generare sequenze di azioni complesse del mondo reale. Nel complesso, questi risultati evidenziano TV2TV come un passo promettente verso la generazione video con ragionamento testuale e controllo aperti.
English
Video generation models are rapidly advancing, but can still struggle with complex video outputs that require significant semantic branching or repeated high-level reasoning about what should happen next. In this paper, we introduce a new class of omni video-text models that integrate ideas from recent LM reasoning advances to address this challenge. More specifically, we present TV2TV, a unified generative modeling framework which decomposes video generation into an interleaved text and video generation process. TV2TV jointly learns language modeling (next-token prediction) and video flow matching (next-frame prediction) using a Mixture-of-Transformers (MoT) architecture. At inference time, TV2TV decides when to alternate between generating text and video frames, allowing the model to "think in words" about subsequent content before ``acting in pixels'' to produce frames. This design offloads much of the responsibility for deciding what should happen next to the language modeling tower, enabling improved visual quality and prompt alignment of generated videos. It also enables fine-grained controllability, allowing users to modify the video generation trajectory through text interventions at any point in the process. In controlled experiments on video game data, TV2TV demonstrates substantial improvements in both visual quality and controllability. TV2TV also scales to natural videos, as we show by augmenting sports videos with interleaved natural language action descriptions using vision-language models (VLMs). Training TV2TV on this corpus yields strong visual quality and prompt alignment, showcasing the model's ability to reason about and generate complex real-world action sequences. Together, these results highlight TV2TV as a promising step toward video generation with open-ended textual reasoning and control.
PDF162December 21, 2025