Lumos-1 : Sur la génération vidéo autorégressive à partir d'une perspective de modèle unifié

papers.abstract

Les grands modèles de langage (LLM) autorégressifs ont unifié un large éventail de tâches linguistiques, inspirant des efforts préliminaires dans la génération vidéo autorégressive. Les générateurs vidéo autorégressifs existants s'écartent soit des architectures standard des LLM, dépendent d'encodeurs de texte externes encombrants, ou engendrent une latence prohibitive due au décodage token par token. Dans cet article, nous présentons Lumos-1, un générateur vidéo autorégressif qui conserve l'architecture des LLM avec des modifications architecturales minimales. Pour injecter des corrélations spatiotemporelles dans les LLM, nous identifions l'efficacité de l'intégration de la 3D RoPE et diagnostiquons ses plages de spectre de fréquences déséquilibrées. Par conséquent, nous proposons MM-RoPE, un schéma RoPE qui préserve la RoPE textuelle originale tout en fournissant des spectres de fréquences complets et des positions 3D mises à l'échelle pour modéliser les données spatiotemporelles multimodales. De plus, Lumos-1 recourt à une stratégie de dépendance des tokens qui respecte la bidirectionnalité intra-trame et la causalité temporelle inter-trames. Sur la base de cette stratégie de dépendance, nous identifions le problème de déséquilibre de perte par trame causé par la redondance d'information spatiale et le résolvons en proposant l'Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF introduit un masquage temporel en tube pendant l'entraînement avec une politique de masquage compatible au moment de l'inférence pour éviter une dégradation de la qualité. En utilisant des techniques d'entraînement économes en mémoire, nous pré-entraînons Lumos-1 sur seulement 48 GPU, atteignant des performances comparables à EMU3 sur GenEval, COSMOS-Video2World sur VBench-I2V, et OpenSoraPlan sur VBench-T2V. Le code et les modèles sont disponibles à l'adresse https://github.com/alibaba-damo-academy/Lumos.

English

Autoregressive large language models (LLMs) have unified a vast range of language tasks, inspiring preliminary efforts in autoregressive video generation. Existing autoregressive video generators either diverge from standard LLM architectures, depend on bulky external text encoders, or incur prohibitive latency due to next-token decoding. In this paper, we introduce Lumos-1, an autoregressive video generator that retains the LLM architecture with minimal architectural modifications. To inject spatiotemporal correlations in LLMs, we identify the efficacy of incorporating 3D RoPE and diagnose its imbalanced frequency spectrum ranges. Therefore, we propose MM-RoPE, a RoPE scheme that preserves the original textual RoPE while providing comprehensive frequency spectra and scaled 3D positions for modeling multimodal spatiotemporal data. Moreover, Lumos-1 resorts to a token dependency strategy that obeys intra-frame bidirectionality and inter-frame temporal causality. Based on this dependency strategy, we identify the issue of frame-wise loss imbalance caused by spatial information redundancy and solve it by proposing Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF introduces temporal tube masking during training with a compatible inference-time masking policy to avoid quality degradation. By using memory-efficient training techniques, we pre-train Lumos-1 on only 48 GPUs, achieving performance comparable to EMU3 on GenEval, COSMOS-Video2World on VBench-I2V, and OpenSoraPlan on VBench-T2V. Code and models are available at https://github.com/alibaba-damo-academy/Lumos.

Lumos-1 : Sur la génération vidéo autorégressive à partir d'une perspective de modèle unifié

Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective

papers.abstract

Support