ChatPaper.aiChatPaper

TV2TV:言語と映像のインターリーブ生成のための統一フレームワーク

TV2TV: A Unified Framework for Interleaved Language and Video Generation

December 4, 2025
著者: Xiaochuang Han, Youssef Emad, Melissa Hall, John Nguyen, Karthik Padthe, Liam Robbins, Amir Bar, Delong Chen, Michal Drozdzal, Maha Elbayad, Yushi Hu, Shang-Wen Li, Sreya Dutta Roy, Jakob Verbeek, XuDong Wang, Marjan Ghazvininejad, Luke Zettlemoyer, Emily Dinan
cs.AI

要旨

ビデオ生成モデルは急速に進歩しているが、意味論的な分岐を多く含む複雑な出力や、次に起こるべきことに関する高度な推論の繰り返しを必要とするビデオ生成には依然として課題がある。本論文では、この課題に対処するため、最近の言語モデルにおける推論技術の進展を統合した新たなクラスのオムニビデオ-テキストモデルを提案する。具体的には、ビデオ生成をテキスト生成とビデオ生成が交互に行われるプロセスとして分解する統合生成的モデリングフレームワーク、TV2TVを紹介する。TV2TVはMixture-of-Transformers(MoT)アーキテクチャを用いて、言語モデリング(次トークン予測)とビデオフローマッチング(次フレーム予測)を共同で学習する。推論時には、TV2TVがテキスト生成とビデオフレーム生成を切り替えるタイミングを決定し、モデルがフレームを生成する前に、後のコンテンツについて「言葉で考え」、その後「ピクセルで行動」することを可能にする。この設計により、次に起こるべきことを決定する責務の多くが言語モデリングタワーに委ねられ、生成されるビデオの視覚的品質とプロンプトへの忠実度が向上する。また、プロセス中の任意の時点でテキストによる介入を通じてビデオ生成の軌道を修正できる、細粒度の制御性も実現する。ビデオゲームデータを用いた制御実験において、TV2TVは視覚的品質と制御性の両方で大幅な改善を示した。さらにTV2TVは自然映像にもスケールし、ビジョン言語モデルを用いてスポーツビデオに自然言語の行動記述を交互に付加したデータセットで学習を行うことで、強力な視覚的品質とプロンプトへの忠実度を実現し、複雑な実世界の行動系列を推論および生成するモデルの能力を実証した。これらの結果は総合して、TV2TVがオープンエンドなテキスト推論と制御を備えたビデオ生成に向けた有望な一歩であることを示唆している。
English
Video generation models are rapidly advancing, but can still struggle with complex video outputs that require significant semantic branching or repeated high-level reasoning about what should happen next. In this paper, we introduce a new class of omni video-text models that integrate ideas from recent LM reasoning advances to address this challenge. More specifically, we present TV2TV, a unified generative modeling framework which decomposes video generation into an interleaved text and video generation process. TV2TV jointly learns language modeling (next-token prediction) and video flow matching (next-frame prediction) using a Mixture-of-Transformers (MoT) architecture. At inference time, TV2TV decides when to alternate between generating text and video frames, allowing the model to "think in words" about subsequent content before ``acting in pixels'' to produce frames. This design offloads much of the responsibility for deciding what should happen next to the language modeling tower, enabling improved visual quality and prompt alignment of generated videos. It also enables fine-grained controllability, allowing users to modify the video generation trajectory through text interventions at any point in the process. In controlled experiments on video game data, TV2TV demonstrates substantial improvements in both visual quality and controllability. TV2TV also scales to natural videos, as we show by augmenting sports videos with interleaved natural language action descriptions using vision-language models (VLMs). Training TV2TV on this corpus yields strong visual quality and prompt alignment, showcasing the model's ability to reason about and generate complex real-world action sequences. Together, these results highlight TV2TV as a promising step toward video generation with open-ended textual reasoning and control.
PDF81December 6, 2025