Lumos-1: Über autoregressive Videogenerierung aus einer einheitlichen Modellperspektive

papers.abstract

Autoregressive große Sprachmodelle (LLMs) haben eine Vielzahl von Sprachaufgaben vereinheitlicht und damit erste Bemühungen in der autoregressiven Videogenerierung inspiriert. Bestehende autoregressive Videogeneratoren weichen entweder von den Standard-LLM-Architekturen ab, sind auf umfangreiche externe Textkodierer angewiesen oder verursachen aufgrund der nächsten Token-Decodierung eine unzumutbare Latenz. In diesem Artikel stellen wir Lumos-1 vor, einen autoregressiven Videogenerator, der die LLM-Architektur mit minimalen architektonischen Anpassungen beibehält. Um räumlich-zeitliche Korrelationen in LLMs einzubringen, identifizieren wir die Wirksamkeit der Einbindung von 3D-RoPE und diagnostizieren dessen unausgewogene Frequenzspektrumbereiche. Daher schlagen wir MM-RoPE vor, ein RoPE-Schema, das das ursprüngliche textuelle RoPE bewahrt, während es umfassende Frequenzspektren und skalierte 3D-Positionen für die Modellierung multimodaler räumlich-zeitlicher Daten bereitstellt. Darüber hinaus greift Lumos-1 auf eine Token-Abhängigkeitsstrategie zurück, die die bidirektionale Intra-Frame- und die zeitliche Kausalität der Inter-Frame-Abhängigkeit befolgt. Basierend auf dieser Abhängigkeitsstrategie identifizieren wir das Problem des Frame-weisen Verlustungleichgewichts, das durch räumliche Informationsredundanz verursacht wird, und lösen es durch die Einführung von Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF führt während des Trainings eine zeitliche Röhrenmaskierung mit einer kompatiblen Inferenzzeit-Maskierungsrichtlinie ein, um eine Qualitätsverschlechterung zu vermeiden. Durch den Einsatz von speichereffizienten Trainingstechniken pre-trainieren wir Lumos-1 auf nur 48 GPUs und erreichen eine Leistung, die mit EMU3 auf GenEval, COSMOS-Video2World auf VBench-I2V und OpenSoraPlan auf VBench-T2V vergleichbar ist. Code und Modelle sind unter https://github.com/alibaba-damo-academy/Lumos verfügbar.

English

Autoregressive large language models (LLMs) have unified a vast range of language tasks, inspiring preliminary efforts in autoregressive video generation. Existing autoregressive video generators either diverge from standard LLM architectures, depend on bulky external text encoders, or incur prohibitive latency due to next-token decoding. In this paper, we introduce Lumos-1, an autoregressive video generator that retains the LLM architecture with minimal architectural modifications. To inject spatiotemporal correlations in LLMs, we identify the efficacy of incorporating 3D RoPE and diagnose its imbalanced frequency spectrum ranges. Therefore, we propose MM-RoPE, a RoPE scheme that preserves the original textual RoPE while providing comprehensive frequency spectra and scaled 3D positions for modeling multimodal spatiotemporal data. Moreover, Lumos-1 resorts to a token dependency strategy that obeys intra-frame bidirectionality and inter-frame temporal causality. Based on this dependency strategy, we identify the issue of frame-wise loss imbalance caused by spatial information redundancy and solve it by proposing Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF introduces temporal tube masking during training with a compatible inference-time masking policy to avoid quality degradation. By using memory-efficient training techniques, we pre-train Lumos-1 on only 48 GPUs, achieving performance comparable to EMU3 on GenEval, COSMOS-Video2World on VBench-I2V, and OpenSoraPlan on VBench-T2V. Code and models are available at https://github.com/alibaba-damo-academy/Lumos.

Lumos-1: Über autoregressive Videogenerierung aus einer einheitlichen Modellperspektive

Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective

papers.abstract

Support