ChatPaper.aiChatPaper

TV2TV: 인터리브 언어 및 비디오 생성을 위한 통합 프레임워크

TV2TV: A Unified Framework for Interleaved Language and Video Generation

December 4, 2025
저자: Xiaochuang Han, Youssef Emad, Melissa Hall, John Nguyen, Karthik Padthe, Liam Robbins, Amir Bar, Delong Chen, Michal Drozdzal, Maha Elbayad, Yushi Hu, Shang-Wen Li, Sreya Dutta Roy, Jakob Verbeek, XuDong Wang, Marjan Ghazvininejad, Luke Zettlemoyer, Emily Dinan
cs.AI

초록

비디오 생성 모델은 빠르게 발전하고 있지만, 상당한 의미론적 분기나 다음에 발생해야 할 내용에 대한 반복적인 고수준 추론이 필요한 복잡한 비디오 출력에는 여전히 어려움을 겪을 수 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 최근 언어 모델 추론 기술의 발전에서 아이디어를 통합한 새로운 종류의 오므니(omni) 비디오-텍스트 모델 클래스를 소개합니다. 보다 구체적으로, 비디오 생성을 텍스트와 비디오 생성이 교차되는 과정으로 분해하는 통합 생성 모델링 프레임워크인 TV2TV를 제시합니다. TV2TV는 Mixture-of-Transformers(MoT) 아키텍처를 사용하여 언어 모델링(다음 토큰 예측)과 비디오 플로우 매칭(다음 프레임 예측)을 공동으로 학습합니다. 추론 시에는 TV2TV가 텍스트 생성과 비디오 프레임 생성 사이를 전환할 시점을 결정함으로써, 모델이 프레임을 생성하기 위해 "픽셀로 행동하기" 전에 후속 콘텐츠에 대해 "단어로 생각"할 수 있게 합니다. 이 설계는 다음에 무엇이 발생해야 하는지 결정하는 책임의 상당 부분을 언어 모델링 타워에 위임하여, 생성된 비디오의 시각적 품질과 프롬프트 정렬을 향상시킬 수 있습니다. 또한 사용자가 프로세스 중 어느 시점에서나 텍스트 인터벤션을 통해 비디오 생성 경로를 수정할 수 있는 세분화된 제어 기능을 가능하게 합니다. 비디오 게임 데이터에 대한 통제 실험에서 TV2TV는 시각적 품질과 제어 가능성 모두에서 상당한 향상을 보여줍니다. TV2TV는 자연 영상으로도 확장 가능하며, 비전-언어 모델(VLM)을 사용하여 스포츠 영상에 교차된 자연어 행동 설명을 추가하는 것을 통해 이를 입증합니다. 이 코퍼스로 TV2TV를 학습시키면 뛰어난 시각적 품질과 프롬프트 정렬을 얻을 수 있으며, 이는 모델이 복잡한 실제 행동 시퀀스를 추론하고 생성할 수 있는 능력을 보여줍니다. 이러한 결과들은 종합적으로 TV2TV가 개방형 텍스트 추론과 제어를 통한 비디오 생성으로 나아가는 유망한 단계임을 강조합니다.
English
Video generation models are rapidly advancing, but can still struggle with complex video outputs that require significant semantic branching or repeated high-level reasoning about what should happen next. In this paper, we introduce a new class of omni video-text models that integrate ideas from recent LM reasoning advances to address this challenge. More specifically, we present TV2TV, a unified generative modeling framework which decomposes video generation into an interleaved text and video generation process. TV2TV jointly learns language modeling (next-token prediction) and video flow matching (next-frame prediction) using a Mixture-of-Transformers (MoT) architecture. At inference time, TV2TV decides when to alternate between generating text and video frames, allowing the model to "think in words" about subsequent content before ``acting in pixels'' to produce frames. This design offloads much of the responsibility for deciding what should happen next to the language modeling tower, enabling improved visual quality and prompt alignment of generated videos. It also enables fine-grained controllability, allowing users to modify the video generation trajectory through text interventions at any point in the process. In controlled experiments on video game data, TV2TV demonstrates substantial improvements in both visual quality and controllability. TV2TV also scales to natural videos, as we show by augmenting sports videos with interleaved natural language action descriptions using vision-language models (VLMs). Training TV2TV on this corpus yields strong visual quality and prompt alignment, showcasing the model's ability to reason about and generate complex real-world action sequences. Together, these results highlight TV2TV as a promising step toward video generation with open-ended textual reasoning and control.
PDF81December 6, 2025