Technischer Bericht zu LongCat-Video
LongCat-Video Technical Report
October 25, 2025
papers.authors: Meituan LongCat Team, Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang
cs.AI
papers.abstract
Die Videogenerierung ist ein entscheidender Weg zur Entwicklung von Weltmodellen, wobei effiziente Langzeit-Videoinferenz eine Schlüsselfähigkeit darstellt. Zu diesem Zweck führen wir LongCat-Video ein, ein fundamentales Videogenerierungsmodell mit 13,6 Milliarden Parametern, das starke Leistungen über mehrere Videogenerierungsaufgaben hinweg liefert. Es zeichnet sich insbesondere durch effiziente und hochwertige Langzeit-Videogenerierung aus und repräsentiert unseren ersten Schritt in Richtung Weltmodelle. Zu den Hauptmerkmalen gehören:
- **Vereinheitlichte Architektur für mehrere Aufgaben**: Basierend auf dem Diffusion-Transformer (DiT)-Framework unterstützt LongCat-Video Text-zu-Video-, Bild-zu-Video- und Video-Fortführungsaufgaben mit einem einzigen Modell.
- **Langzeit-Videogenerierung**: Vortraining auf Video-Fortführungsaufgaben ermöglicht es LongCat-Video, hohe Qualität und zeitliche Kohärenz bei der Generierung von minutenlangen Videos beizubehalten.
- **Effiziente Inferenz**: LongCat-Video erzeugt 720p-Videos mit 30 Bildern pro Sekunde innerhalb weniger Minuten durch eine Grob-zu-Fein-Generierungsstrategie entlang der zeitlichen und räumlichen Achsen. Block-Sparse-Attention steigert die Effizienz weiter, insbesondere bei hohen Auflösungen.
- **Starke Leistung durch Multi-Reward-RLHF**: Multi-Reward-RLHF-Training ermöglicht es LongCat-Video, Leistungen auf Augenhöhe mit neuesten proprietären und führenden Open-Source-Modellen zu erzielen. Code und Modellgewichte sind öffentlich verfügbar, um Fortschritte auf diesem Gebiet zu beschleunigen.
English
Video generation is a critical pathway toward world models, with efficient
long video inference as a key capability. Toward this end, we introduce
LongCat-Video, a foundational video generation model with 13.6B parameters,
delivering strong performance across multiple video generation tasks. It
particularly excels in efficient and high-quality long video generation,
representing our first step toward world models. Key features include: Unified
architecture for multiple tasks: Built on the Diffusion Transformer (DiT)
framework, LongCat-Video supports Text-to-Video, Image-to-Video, and
Video-Continuation tasks with a single model; Long video generation:
Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high
quality and temporal coherence in the generation of minutes-long videos;
Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes
by employing a coarse-to-fine generation strategy along both the temporal and
spatial axes. Block Sparse Attention further enhances efficiency, particularly
at high resolutions; Strong performance with multi-reward RLHF: Multi-reward
RLHF training enables LongCat-Video to achieve performance on par with the
latest closed-source and leading open-source models. Code and model weights are
publicly available to accelerate progress in the field.