ChatPaper.aiChatPaper

Domando o Forçamento do Professor para Geração de Vídeo Autoregressivo Mascaramento

Taming Teacher Forcing for Masked Autoregressive Video Generation

January 21, 2025
Autores: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum
cs.AI

Resumo

Apresentamos o MAGI, um framework híbrido de geração de vídeo que combina modelagem mascarada para geração intra-frame com modelagem causal para geração do próximo frame. Nossa principal inovação, Ensino Forçado Completo (CTF), condiciona frames mascarados em frames de observação completos em vez de frames mascarados (ou seja, Ensino Forçado Mascaramento, MTF), permitindo uma transição suave da geração autoregressiva de nível de token (nível de patch) para nível de frame. CTF supera significativamente MTF, alcançando uma melhoria de +23% nos escores FVD na previsão de vídeo condicionada ao primeiro frame. Para lidar com problemas como viés de exposição, empregamos estratégias de treinamento direcionadas, estabelecendo um novo referencial na geração de vídeo autoregressiva. Experimentos mostram que o MAGI pode gerar sequências de vídeo longas e coerentes com mais de 100 frames, mesmo quando treinado com apenas 16 frames, destacando seu potencial para geração de vídeo escalável e de alta qualidade.
English
We introduce MAGI, a hybrid video generation framework that combines masked modeling for intra-frame generation with causal modeling for next-frame generation. Our key innovation, Complete Teacher Forcing (CTF), conditions masked frames on complete observation frames rather than masked ones (namely Masked Teacher Forcing, MTF), enabling a smooth transition from token-level (patch-level) to frame-level autoregressive generation. CTF significantly outperforms MTF, achieving a +23% improvement in FVD scores on first-frame conditioned video prediction. To address issues like exposure bias, we employ targeted training strategies, setting a new benchmark in autoregressive video generation. Experiments show that MAGI can generate long, coherent video sequences exceeding 100 frames, even when trained on as few as 16 frames, highlighting its potential for scalable, high-quality video generation.
PDF102January 22, 2025