Domando el Forzamiento del Docente para la Generación de Video Autoregresivo Enmascarado.

Resumen

Presentamos MAGI, un marco híbrido de generación de video que combina modelado enmascarado para la generación intra-frame con modelado causal para la generación del siguiente frame. Nuestra innovación clave, Enseñanza Completa Forzada (CTF), condiciona los frames enmascarados en frames de observación completos en lugar de enmascarados (llamado Enseñanza Forzada enmascarada, MTF), permitiendo una transición fluida desde la generación autoregresiva a nivel de token (nivel de parche) a nivel de frame. CTF supera significativamente a MTF, logrando una mejora del +23% en las puntuaciones FVD en la predicción de video condicionada al primer frame. Para abordar problemas como el sesgo de exposición, empleamos estrategias de entrenamiento específicas, estableciendo un nuevo punto de referencia en la generación autoregresiva de video. Los experimentos muestran que MAGI puede generar secuencias de video largas y coherentes que superan los 100 frames, incluso cuando se entrena con tan solo 16 frames, resaltando su potencial para una generación de video escalable y de alta calidad.

English

We introduce MAGI, a hybrid video generation framework that combines masked modeling for intra-frame generation with causal modeling for next-frame generation. Our key innovation, Complete Teacher Forcing (CTF), conditions masked frames on complete observation frames rather than masked ones (namely Masked Teacher Forcing, MTF), enabling a smooth transition from token-level (patch-level) to frame-level autoregressive generation. CTF significantly outperforms MTF, achieving a +23% improvement in FVD scores on first-frame conditioned video prediction. To address issues like exposure bias, we employ targeted training strategies, setting a new benchmark in autoregressive video generation. Experiments show that MAGI can generate long, coherent video sequences exceeding 100 frames, even when trained on as few as 16 frames, highlighting its potential for scalable, high-quality video generation.

Domando el Forzamiento del Docente para la Generación de Video Autoregresivo Enmascarado.

Taming Teacher Forcing for Masked Autoregressive Video Generation

Resumen

Support