マスクされた自己回帰ビデオ生成のためのTeacher Forcingの制御
Taming Teacher Forcing for Masked Autoregressive Video Generation
January 21, 2025
著者: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum
cs.AI
要旨
MAGIというハイブリッドビデオ生成フレームワークを紹介します。このフレームワークは、イントラフレーム生成のためのマスクモデリングと、次フレーム生成のための因果モデリングを組み合わせています。主要な革新であるComplete Teacher Forcing(CTF)は、マスクされたフレームをマスクされたものではなく完全な観測フレームに依存させます(つまり、マスクされたTeacher Forcing、MTFではなく)。これにより、トークンレベル(パッチレベル)からフレームレベルの自己回帰生成へのスムーズな移行が可能となります。CTFは、MTFを大幅に上回り、最初のフレーム条件付きビデオ予測においてFVDスコアで+23%の改善を達成します。露出バイアスなどの問題に対処するために、ターゲット指向のトレーニング戦略を採用し、自己回帰的ビデオ生成の新たな基準を設定しています。実験では、MAGIが16フレームのみでトレーニングされていても、100フレームを超える長く一貫したビデオシーケンスを生成できることが示され、スケーラブルで高品質なビデオ生成の可能性が強調されています。
English
We introduce MAGI, a hybrid video generation framework that combines masked
modeling for intra-frame generation with causal modeling for next-frame
generation. Our key innovation, Complete Teacher Forcing (CTF), conditions
masked frames on complete observation frames rather than masked ones (namely
Masked Teacher Forcing, MTF), enabling a smooth transition from token-level
(patch-level) to frame-level autoregressive generation. CTF significantly
outperforms MTF, achieving a +23% improvement in FVD scores on first-frame
conditioned video prediction. To address issues like exposure bias, we employ
targeted training strategies, setting a new benchmark in autoregressive video
generation. Experiments show that MAGI can generate long, coherent video
sequences exceeding 100 frames, even when trained on as few as 16 frames,
highlighting its potential for scalable, high-quality video generation.Summary
AI-Generated Summary