長文脈自己回帰型ビデオモデリングと次フレーム予測Long-Context Autoregressive Video Modeling with Next-Frame Prediction
長文脈自己回帰モデリングは言語生成を大きく進歩させてきたが、映像生成では長い時間的文脈を十分に活用することに依然として苦戦している。長文脈映像モデリングを探求するため、我々はFrame AutoRegressive(FAR)を導入する。これは映像自己回帰モデリングの強力なベースラインである。言語モデルがトークン間の因果的依存関係(すなわちToken AR)を学習するのと同様に、FARは連続フレーム間の時間的因果的依存関係をモデル化し、Token ARや映像拡散トランスフォーマーよりも優れた収束性を達成する。FARを基盤として、長文脈視覚モデリングが視覚的な冗長性により課題に直面していることを観察する。既存のRoPEは遠隔文脈に対する効果的な時間的減衰を欠いており、長い映像シーケンスへの外挿がうまくいかない。さらに、長い映像の学習は計算コストが高く、視覚トークンは言語トークンよりもはるかに速く増加する。これらの問題に対処するため、我々は局所性と長距離依存性のバランスを取ることを提案する。FlexRoPEを導入し、これはRoPEに柔軟な時間的減衰を加えるテスト時技術であり、16倍長い視覚文脈への外挿を可能にする。さらに、長短期文脈モデリングを提案する。ここでは高解像度の短期文脈ウィンドウが細かい時間的一貫性を保証し、無制限の長期文脈ウィンドウが少ないトークンで長距離情報をエンコードする。このアプローチにより、管理可能なトークン文脈長で長い映像シーケンスを学習できる。我々は、FARが短編・長編映像生成の両方で最先端の性能を達成し、映像自己回帰モデリングのシンプルで効果的なベースラインを提供することを実証する。