Domare l'obbligo dell'insegnamento per la generazione video autoregressiva mascherata
Taming Teacher Forcing for Masked Autoregressive Video Generation
January 21, 2025
Autori: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum
cs.AI
Abstract
Introduciamo MAGI, un framework ibrido per la generazione di video che combina il modellamento mascherato per la generazione intra-frame con il modellamento causale per la generazione del frame successivo. La nostra innovazione chiave, Complete Teacher Forcing (CTF), condiziona i frame mascherati su frame di osservazione completi anziché mascherati (ovvero Masked Teacher Forcing, MTF), consentendo una transizione fluida dalla generazione autoregressiva a livello di token (livello di patch) a livello di frame. CTF supera significativamente MTF, ottenendo un miglioramento del +23% nei punteggi FVD nella previsione video condizionata al primo frame. Per affrontare problemi come il bias di esposizione, adottiamo strategie di addestramento mirate, stabilendo un nuovo punto di riferimento nella generazione autoregressiva di video. Gli esperimenti mostrano che MAGI può generare sequenze video lunghe e coerenti di oltre 100 frame, anche quando addestrato su soli 16 frame, evidenziando il suo potenziale per la generazione di video scalabile e di alta qualità.
English
We introduce MAGI, a hybrid video generation framework that combines masked
modeling for intra-frame generation with causal modeling for next-frame
generation. Our key innovation, Complete Teacher Forcing (CTF), conditions
masked frames on complete observation frames rather than masked ones (namely
Masked Teacher Forcing, MTF), enabling a smooth transition from token-level
(patch-level) to frame-level autoregressive generation. CTF significantly
outperforms MTF, achieving a +23% improvement in FVD scores on first-frame
conditioned video prediction. To address issues like exposure bias, we employ
targeted training strategies, setting a new benchmark in autoregressive video
generation. Experiments show that MAGI can generate long, coherent video
sequences exceeding 100 frames, even when trained on as few as 16 frames,
highlighting its potential for scalable, high-quality video generation.Summary
AI-Generated Summary