Domando o Forçamento do Professor para Geração de Vídeo Autoregressivo Mascaramento
Taming Teacher Forcing for Masked Autoregressive Video Generation
January 21, 2025
Autores: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum
cs.AI
Resumo
Apresentamos o MAGI, um framework híbrido de geração de vídeo que combina modelagem mascarada para geração intra-frame com modelagem causal para geração do próximo frame. Nossa principal inovação, Ensino Forçado Completo (CTF), condiciona frames mascarados em frames de observação completos em vez de frames mascarados (ou seja, Ensino Forçado Mascaramento, MTF), permitindo uma transição suave da geração autoregressiva de nível de token (nível de patch) para nível de frame. CTF supera significativamente MTF, alcançando uma melhoria de +23% nos escores FVD na previsão de vídeo condicionada ao primeiro frame. Para lidar com problemas como viés de exposição, empregamos estratégias de treinamento direcionadas, estabelecendo um novo referencial na geração de vídeo autoregressiva. Experimentos mostram que o MAGI pode gerar sequências de vídeo longas e coerentes com mais de 100 frames, mesmo quando treinado com apenas 16 frames, destacando seu potencial para geração de vídeo escalável e de alta qualidade.
English
We introduce MAGI, a hybrid video generation framework that combines masked
modeling for intra-frame generation with causal modeling for next-frame
generation. Our key innovation, Complete Teacher Forcing (CTF), conditions
masked frames on complete observation frames rather than masked ones (namely
Masked Teacher Forcing, MTF), enabling a smooth transition from token-level
(patch-level) to frame-level autoregressive generation. CTF significantly
outperforms MTF, achieving a +23% improvement in FVD scores on first-frame
conditioned video prediction. To address issues like exposure bias, we employ
targeted training strategies, setting a new benchmark in autoregressive video
generation. Experiments show that MAGI can generate long, coherent video
sequences exceeding 100 frames, even when trained on as few as 16 frames,
highlighting its potential for scalable, high-quality video generation.