Lumos-1: Über autoregressive Videogenerierung aus einer einheitlichen Modellperspektive
Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective
July 11, 2025
papers.authors: Hangjie Yuan, Weihua Chen, Jun Cen, Hu Yu, Jingyun Liang, Shuning Chang, Zhihui Lin, Tao Feng, Pengwei Liu, Jiazheng Xing, Hao Luo, Jiasheng Tang, Fan Wang, Yi Yang
cs.AI
papers.abstract
Autoregressive große Sprachmodelle (LLMs) haben eine Vielzahl von Sprachaufgaben vereinheitlicht und damit erste Bemühungen in der autoregressiven Videogenerierung inspiriert. Bestehende autoregressive Videogeneratoren weichen entweder von den Standard-LLM-Architekturen ab, sind auf umfangreiche externe Textkodierer angewiesen oder verursachen aufgrund der nächsten Token-Decodierung eine unzumutbare Latenz. In diesem Artikel stellen wir Lumos-1 vor, einen autoregressiven Videogenerator, der die LLM-Architektur mit minimalen architektonischen Anpassungen beibehält. Um räumlich-zeitliche Korrelationen in LLMs einzubringen, identifizieren wir die Wirksamkeit der Einbindung von 3D-RoPE und diagnostizieren dessen unausgewogene Frequenzspektrumbereiche. Daher schlagen wir MM-RoPE vor, ein RoPE-Schema, das das ursprüngliche textuelle RoPE bewahrt, während es umfassende Frequenzspektren und skalierte 3D-Positionen für die Modellierung multimodaler räumlich-zeitlicher Daten bereitstellt. Darüber hinaus greift Lumos-1 auf eine Token-Abhängigkeitsstrategie zurück, die die bidirektionale Intra-Frame- und die zeitliche Kausalität der Inter-Frame-Abhängigkeit befolgt. Basierend auf dieser Abhängigkeitsstrategie identifizieren wir das Problem des Frame-weisen Verlustungleichgewichts, das durch räumliche Informationsredundanz verursacht wird, und lösen es durch die Einführung von Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF führt während des Trainings eine zeitliche Röhrenmaskierung mit einer kompatiblen Inferenzzeit-Maskierungsrichtlinie ein, um eine Qualitätsverschlechterung zu vermeiden. Durch den Einsatz von speichereffizienten Trainingstechniken pre-trainieren wir Lumos-1 auf nur 48 GPUs und erreichen eine Leistung, die mit EMU3 auf GenEval, COSMOS-Video2World auf VBench-I2V und OpenSoraPlan auf VBench-T2V vergleichbar ist. Code und Modelle sind unter https://github.com/alibaba-damo-academy/Lumos verfügbar.
English
Autoregressive large language models (LLMs) have unified a vast range of
language tasks, inspiring preliminary efforts in autoregressive video
generation. Existing autoregressive video generators either diverge from
standard LLM architectures, depend on bulky external text encoders, or incur
prohibitive latency due to next-token decoding. In this paper, we introduce
Lumos-1, an autoregressive video generator that retains the LLM architecture
with minimal architectural modifications. To inject spatiotemporal correlations
in LLMs, we identify the efficacy of incorporating 3D RoPE and diagnose its
imbalanced frequency spectrum ranges. Therefore, we propose MM-RoPE, a RoPE
scheme that preserves the original textual RoPE while providing comprehensive
frequency spectra and scaled 3D positions for modeling multimodal
spatiotemporal data. Moreover, Lumos-1 resorts to a token dependency strategy
that obeys intra-frame bidirectionality and inter-frame temporal causality.
Based on this dependency strategy, we identify the issue of frame-wise loss
imbalance caused by spatial information redundancy and solve it by proposing
Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF introduces temporal
tube masking during training with a compatible inference-time masking policy to
avoid quality degradation. By using memory-efficient training techniques, we
pre-train Lumos-1 on only 48 GPUs, achieving performance comparable to EMU3 on
GenEval, COSMOS-Video2World on VBench-I2V, and OpenSoraPlan on VBench-T2V. Code
and models are available at https://github.com/alibaba-damo-academy/Lumos.