ChatPaper.aiChatPaper

Приручение принуждения учителя для маскированной авторегрессивной генерации видео

Taming Teacher Forcing for Masked Autoregressive Video Generation

January 21, 2025
Авторы: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum
cs.AI

Аннотация

Мы представляем MAGI, гибридную структуру генерации видео, которая объединяет маскированное моделирование для генерации внутри кадра с причинным моделированием для генерации следующего кадра. Наш ключевой инновационный подход, Полное Принуждение Учителя (CTF), условия маскированных кадров на полные наблюдаемые кадры, а не на маскированные (то есть Маскированное Принуждение Учителя, MTF), обеспечивает плавный переход от уровня токена (уровня патча) к уровню кадра в авторегрессивной генерации. CTF значительно превосходит MTF, достигая улучшения показателей FVD на +23% при предсказании видео, условия которого - первый кадр. Для решения проблем, таких как предвзятость экспозиции, мы используем целенаправленные стратегии обучения, устанавливая новый стандарт в авторегрессивной генерации видео. Эксперименты показывают, что MAGI способен генерировать длинные, последовательные видеофрагменты, превышающие 100 кадров, даже при обучении на всего 16 кадрах, что подчеркивает его потенциал для масштабируемой генерации видео высокого качества.
English
We introduce MAGI, a hybrid video generation framework that combines masked modeling for intra-frame generation with causal modeling for next-frame generation. Our key innovation, Complete Teacher Forcing (CTF), conditions masked frames on complete observation frames rather than masked ones (namely Masked Teacher Forcing, MTF), enabling a smooth transition from token-level (patch-level) to frame-level autoregressive generation. CTF significantly outperforms MTF, achieving a +23% improvement in FVD scores on first-frame conditioned video prediction. To address issues like exposure bias, we employ targeted training strategies, setting a new benchmark in autoregressive video generation. Experiments show that MAGI can generate long, coherent video sequences exceeding 100 frames, even when trained on as few as 16 frames, highlighting its potential for scalable, high-quality video generation.

Summary

AI-Generated Summary

PDF102January 22, 2025