ChatPaper.aiChatPaper

長文脈自己回帰型ビデオモデリングと次フレーム予測

Long-Context Autoregressive Video Modeling with Next-Frame Prediction

March 25, 2025
著者: Yuchao Gu, Weijia Mao, Mike Zheng Shou
cs.AI

要旨

長文脈自己回帰モデリングは言語生成を大きく進歩させてきたが、映像生成では長い時間的文脈を十分に活用することに依然として苦戦している。長文脈映像モデリングを探求するため、我々はFrame AutoRegressive(FAR)を導入する。これは映像自己回帰モデリングの強力なベースラインである。言語モデルがトークン間の因果的依存関係(すなわちToken AR)を学習するのと同様に、FARは連続フレーム間の時間的因果的依存関係をモデル化し、Token ARや映像拡散トランスフォーマーよりも優れた収束性を達成する。FARを基盤として、長文脈視覚モデリングが視覚的な冗長性により課題に直面していることを観察する。既存のRoPEは遠隔文脈に対する効果的な時間的減衰を欠いており、長い映像シーケンスへの外挿がうまくいかない。さらに、長い映像の学習は計算コストが高く、視覚トークンは言語トークンよりもはるかに速く増加する。これらの問題に対処するため、我々は局所性と長距離依存性のバランスを取ることを提案する。FlexRoPEを導入し、これはRoPEに柔軟な時間的減衰を加えるテスト時技術であり、16倍長い視覚文脈への外挿を可能にする。さらに、長短期文脈モデリングを提案する。ここでは高解像度の短期文脈ウィンドウが細かい時間的一貫性を保証し、無制限の長期文脈ウィンドウが少ないトークンで長距離情報をエンコードする。このアプローチにより、管理可能なトークン文脈長で長い映像シーケンスを学習できる。我々は、FARが短編・長編映像生成の両方で最先端の性能を達成し、映像自己回帰モデリングのシンプルで効果的なベースラインを提供することを実証する。
English
Long-context autoregressive modeling has significantly advanced language generation, but video generation still struggles to fully utilize extended temporal contexts. To investigate long-context video modeling, we introduce Frame AutoRegressive (FAR), a strong baseline for video autoregressive modeling. Just as language models learn causal dependencies between tokens (i.e., Token AR), FAR models temporal causal dependencies between continuous frames, achieving better convergence than Token AR and video diffusion transformers. Building on FAR, we observe that long-context vision modeling faces challenges due to visual redundancy. Existing RoPE lacks effective temporal decay for remote context and fails to extrapolate well to long video sequences. Additionally, training on long videos is computationally expensive, as vision tokens grow much faster than language tokens. To tackle these issues, we propose balancing locality and long-range dependency. We introduce FlexRoPE, an test-time technique that adds flexible temporal decay to RoPE, enabling extrapolation to 16x longer vision contexts. Furthermore, we propose long short-term context modeling, where a high-resolution short-term context window ensures fine-grained temporal consistency, while an unlimited long-term context window encodes long-range information using fewer tokens. With this approach, we can train on long video sequences with a manageable token context length. We demonstrate that FAR achieves state-of-the-art performance in both short- and long-video generation, providing a simple yet effective baseline for video autoregressive modeling.

Summary

AI-Generated Summary

PDF722March 26, 2025