Lumos-1 : Sur la génération vidéo autorégressive à partir d'une perspective de modèle unifié
Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective
July 11, 2025
papers.authors: Hangjie Yuan, Weihua Chen, Jun Cen, Hu Yu, Jingyun Liang, Shuning Chang, Zhihui Lin, Tao Feng, Pengwei Liu, Jiazheng Xing, Hao Luo, Jiasheng Tang, Fan Wang, Yi Yang
cs.AI
papers.abstract
Les grands modèles de langage (LLM) autorégressifs ont unifié un large éventail de tâches linguistiques, inspirant des efforts préliminaires dans la génération vidéo autorégressive. Les générateurs vidéo autorégressifs existants s'écartent soit des architectures standard des LLM, dépendent d'encodeurs de texte externes encombrants, ou engendrent une latence prohibitive due au décodage token par token. Dans cet article, nous présentons Lumos-1, un générateur vidéo autorégressif qui conserve l'architecture des LLM avec des modifications architecturales minimales. Pour injecter des corrélations spatiotemporelles dans les LLM, nous identifions l'efficacité de l'intégration de la 3D RoPE et diagnostiquons ses plages de spectre de fréquences déséquilibrées. Par conséquent, nous proposons MM-RoPE, un schéma RoPE qui préserve la RoPE textuelle originale tout en fournissant des spectres de fréquences complets et des positions 3D mises à l'échelle pour modéliser les données spatiotemporelles multimodales. De plus, Lumos-1 recourt à une stratégie de dépendance des tokens qui respecte la bidirectionnalité intra-trame et la causalité temporelle inter-trames. Sur la base de cette stratégie de dépendance, nous identifions le problème de déséquilibre de perte par trame causé par la redondance d'information spatiale et le résolvons en proposant l'Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF introduit un masquage temporel en tube pendant l'entraînement avec une politique de masquage compatible au moment de l'inférence pour éviter une dégradation de la qualité. En utilisant des techniques d'entraînement économes en mémoire, nous pré-entraînons Lumos-1 sur seulement 48 GPU, atteignant des performances comparables à EMU3 sur GenEval, COSMOS-Video2World sur VBench-I2V, et OpenSoraPlan sur VBench-T2V. Le code et les modèles sont disponibles à l'adresse https://github.com/alibaba-damo-academy/Lumos.
English
Autoregressive large language models (LLMs) have unified a vast range of
language tasks, inspiring preliminary efforts in autoregressive video
generation. Existing autoregressive video generators either diverge from
standard LLM architectures, depend on bulky external text encoders, or incur
prohibitive latency due to next-token decoding. In this paper, we introduce
Lumos-1, an autoregressive video generator that retains the LLM architecture
with minimal architectural modifications. To inject spatiotemporal correlations
in LLMs, we identify the efficacy of incorporating 3D RoPE and diagnose its
imbalanced frequency spectrum ranges. Therefore, we propose MM-RoPE, a RoPE
scheme that preserves the original textual RoPE while providing comprehensive
frequency spectra and scaled 3D positions for modeling multimodal
spatiotemporal data. Moreover, Lumos-1 resorts to a token dependency strategy
that obeys intra-frame bidirectionality and inter-frame temporal causality.
Based on this dependency strategy, we identify the issue of frame-wise loss
imbalance caused by spatial information redundancy and solve it by proposing
Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF introduces temporal
tube masking during training with a compatible inference-time masking policy to
avoid quality degradation. By using memory-efficient training techniques, we
pre-train Lumos-1 on only 48 GPUs, achieving performance comparable to EMU3 on
GenEval, COSMOS-Video2World on VBench-I2V, and OpenSoraPlan on VBench-T2V. Code
and models are available at https://github.com/alibaba-damo-academy/Lumos.