Technischer Bericht zu LongCat-Video

papers.abstract

Die Videogenerierung ist ein entscheidender Weg zur Entwicklung von Weltmodellen, wobei effiziente Langzeit-Videoinferenz eine Schlüsselfähigkeit darstellt. Zu diesem Zweck führen wir LongCat-Video ein, ein fundamentales Videogenerierungsmodell mit 13,6 Milliarden Parametern, das starke Leistungen über mehrere Videogenerierungsaufgaben hinweg liefert. Es zeichnet sich insbesondere durch effiziente und hochwertige Langzeit-Videogenerierung aus und repräsentiert unseren ersten Schritt in Richtung Weltmodelle. Zu den Hauptmerkmalen gehören: - **Vereinheitlichte Architektur für mehrere Aufgaben**: Basierend auf dem Diffusion-Transformer (DiT)-Framework unterstützt LongCat-Video Text-zu-Video-, Bild-zu-Video- und Video-Fortführungsaufgaben mit einem einzigen Modell. - **Langzeit-Videogenerierung**: Vortraining auf Video-Fortführungsaufgaben ermöglicht es LongCat-Video, hohe Qualität und zeitliche Kohärenz bei der Generierung von minutenlangen Videos beizubehalten. - **Effiziente Inferenz**: LongCat-Video erzeugt 720p-Videos mit 30 Bildern pro Sekunde innerhalb weniger Minuten durch eine Grob-zu-Fein-Generierungsstrategie entlang der zeitlichen und räumlichen Achsen. Block-Sparse-Attention steigert die Effizienz weiter, insbesondere bei hohen Auflösungen. - **Starke Leistung durch Multi-Reward-RLHF**: Multi-Reward-RLHF-Training ermöglicht es LongCat-Video, Leistungen auf Augenhöhe mit neuesten proprietären und führenden Open-Source-Modellen zu erzielen. Code und Modellgewichte sind öffentlich verfügbar, um Fortschritte auf diesem Gebiet zu beschleunigen.

English

Video generation is a critical pathway toward world models, with efficient long video inference as a key capability. Toward this end, we introduce LongCat-Video, a foundational video generation model with 13.6B parameters, delivering strong performance across multiple video generation tasks. It particularly excels in efficient and high-quality long video generation, representing our first step toward world models. Key features include: Unified architecture for multiple tasks: Built on the Diffusion Transformer (DiT) framework, LongCat-Video supports Text-to-Video, Image-to-Video, and Video-Continuation tasks with a single model; Long video generation: Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high quality and temporal coherence in the generation of minutes-long videos; Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes by employing a coarse-to-fine generation strategy along both the temporal and spatial axes. Block Sparse Attention further enhances efficiency, particularly at high resolutions; Strong performance with multi-reward RLHF: Multi-reward RLHF training enables LongCat-Video to achieve performance on par with the latest closed-source and leading open-source models. Code and model weights are publicly available to accelerate progress in the field.

Technischer Bericht zu LongCat-Video

LongCat-Video Technical Report

papers.abstract

Support