ChatPaper.aiChatPaper

Technischer Bericht zu LongCat-Video

LongCat-Video Technical Report

October 25, 2025
papers.authors: Meituan LongCat Team, Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang
cs.AI

papers.abstract

Die Videogenerierung ist ein entscheidender Weg zur Entwicklung von Weltmodellen, wobei effiziente Langzeit-Videoinferenz eine Schlüsselfähigkeit darstellt. Zu diesem Zweck führen wir LongCat-Video ein, ein fundamentales Videogenerierungsmodell mit 13,6 Milliarden Parametern, das starke Leistungen über mehrere Videogenerierungsaufgaben hinweg liefert. Es zeichnet sich insbesondere durch effiziente und hochwertige Langzeit-Videogenerierung aus und repräsentiert unseren ersten Schritt in Richtung Weltmodelle. Zu den Hauptmerkmalen gehören: - **Vereinheitlichte Architektur für mehrere Aufgaben**: Basierend auf dem Diffusion-Transformer (DiT)-Framework unterstützt LongCat-Video Text-zu-Video-, Bild-zu-Video- und Video-Fortführungsaufgaben mit einem einzigen Modell. - **Langzeit-Videogenerierung**: Vortraining auf Video-Fortführungsaufgaben ermöglicht es LongCat-Video, hohe Qualität und zeitliche Kohärenz bei der Generierung von minutenlangen Videos beizubehalten. - **Effiziente Inferenz**: LongCat-Video erzeugt 720p-Videos mit 30 Bildern pro Sekunde innerhalb weniger Minuten durch eine Grob-zu-Fein-Generierungsstrategie entlang der zeitlichen und räumlichen Achsen. Block-Sparse-Attention steigert die Effizienz weiter, insbesondere bei hohen Auflösungen. - **Starke Leistung durch Multi-Reward-RLHF**: Multi-Reward-RLHF-Training ermöglicht es LongCat-Video, Leistungen auf Augenhöhe mit neuesten proprietären und führenden Open-Source-Modellen zu erzielen. Code und Modellgewichte sind öffentlich verfügbar, um Fortschritte auf diesem Gebiet zu beschleunigen.
English
Video generation is a critical pathway toward world models, with efficient long video inference as a key capability. Toward this end, we introduce LongCat-Video, a foundational video generation model with 13.6B parameters, delivering strong performance across multiple video generation tasks. It particularly excels in efficient and high-quality long video generation, representing our first step toward world models. Key features include: Unified architecture for multiple tasks: Built on the Diffusion Transformer (DiT) framework, LongCat-Video supports Text-to-Video, Image-to-Video, and Video-Continuation tasks with a single model; Long video generation: Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high quality and temporal coherence in the generation of minutes-long videos; Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes by employing a coarse-to-fine generation strategy along both the temporal and spatial axes. Block Sparse Attention further enhances efficiency, particularly at high resolutions; Strong performance with multi-reward RLHF: Multi-reward RLHF training enables LongCat-Video to achieve performance on par with the latest closed-source and leading open-source models. Code and model weights are publicly available to accelerate progress in the field.
PDF292December 31, 2025