Domando el Forzamiento del Docente para la Generación de Video Autoregresivo Enmascarado.
Taming Teacher Forcing for Masked Autoregressive Video Generation
January 21, 2025
Autores: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum
cs.AI
Resumen
Presentamos MAGI, un marco híbrido de generación de video que combina modelado enmascarado para la generación intra-frame con modelado causal para la generación del siguiente frame. Nuestra innovación clave, Enseñanza Completa Forzada (CTF), condiciona los frames enmascarados en frames de observación completos en lugar de enmascarados (llamado Enseñanza Forzada enmascarada, MTF), permitiendo una transición fluida desde la generación autoregresiva a nivel de token (nivel de parche) a nivel de frame. CTF supera significativamente a MTF, logrando una mejora del +23% en las puntuaciones FVD en la predicción de video condicionada al primer frame. Para abordar problemas como el sesgo de exposición, empleamos estrategias de entrenamiento específicas, estableciendo un nuevo punto de referencia en la generación autoregresiva de video. Los experimentos muestran que MAGI puede generar secuencias de video largas y coherentes que superan los 100 frames, incluso cuando se entrena con tan solo 16 frames, resaltando su potencial para una generación de video escalable y de alta calidad.
English
We introduce MAGI, a hybrid video generation framework that combines masked
modeling for intra-frame generation with causal modeling for next-frame
generation. Our key innovation, Complete Teacher Forcing (CTF), conditions
masked frames on complete observation frames rather than masked ones (namely
Masked Teacher Forcing, MTF), enabling a smooth transition from token-level
(patch-level) to frame-level autoregressive generation. CTF significantly
outperforms MTF, achieving a +23% improvement in FVD scores on first-frame
conditioned video prediction. To address issues like exposure bias, we employ
targeted training strategies, setting a new benchmark in autoregressive video
generation. Experiments show that MAGI can generate long, coherent video
sequences exceeding 100 frames, even when trained on as few as 16 frames,
highlighting its potential for scalable, high-quality video generation.Summary
AI-Generated Summary