Apprivoiser l'enseignement forcé pour la génération vidéo autoregressive masquée
Taming Teacher Forcing for Masked Autoregressive Video Generation
January 21, 2025
Auteurs: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum
cs.AI
Résumé
Nous introduisons MAGI, un cadre hybride de génération vidéo qui combine la modélisation masquée pour la génération intra-trame avec la modélisation causale pour la génération de la trame suivante. Notre innovation clé, l'Enseignement Complet Forcé (ECF), conditionne les trames masquées sur des trames d'observation complètes plutôt que masquées (à savoir l'Enseignement Masqué Forcé, EMF), permettant une transition fluide de la génération autorégressive au niveau du token (niveau du patch) à celui de la trame. L'ECF surpasse significativement l'EMF, réalisant une amélioration de +23% des scores FVD sur la prédiction vidéo conditionnée à la première trame. Pour résoudre des problèmes tels que le biais d'exposition, nous utilisons des stratégies d'entraînement ciblées, établissant une nouvelle référence en matière de génération vidéo autorégressive. Les expériences montrent que MAGI peut générer de longues séquences vidéo cohérentes dépassant 100 trames, même lorsqu'il est entraîné sur aussi peu que 16 trames, mettant en évidence son potentiel pour une génération vidéo évolutive et de haute qualité.
English
We introduce MAGI, a hybrid video generation framework that combines masked
modeling for intra-frame generation with causal modeling for next-frame
generation. Our key innovation, Complete Teacher Forcing (CTF), conditions
masked frames on complete observation frames rather than masked ones (namely
Masked Teacher Forcing, MTF), enabling a smooth transition from token-level
(patch-level) to frame-level autoregressive generation. CTF significantly
outperforms MTF, achieving a +23% improvement in FVD scores on first-frame
conditioned video prediction. To address issues like exposure bias, we employ
targeted training strategies, setting a new benchmark in autoregressive video
generation. Experiments show that MAGI can generate long, coherent video
sequences exceeding 100 frames, even when trained on as few as 16 frames,
highlighting its potential for scalable, high-quality video generation.Summary
AI-Generated Summary