Technisch Rapport LongCat-Video
LongCat-Video Technical Report
October 25, 2025
Auteurs: Meituan LongCat Team, Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang
cs.AI
Samenvatting
Videogeneratie is een cruciale weg naar wereldmodellen, waarbij efficiënte inferentie van lange video's een sleutelcapaciteit is. Hiertoe introduceren we LongCat-Video, een fundamenteel videogeneratiemodel met 13,6B parameters, dat sterke prestaties levert bij diverse videogeneratietaken. Het blinkt vooral uit in efficiënte en hoogwaardige generatie van lange video's, wat onze eerste stap vertegenwoordigt naar wereldmodellen. Belangrijke kenmerken zijn:
* **Unificieke architectuur voor meerdere taken:** Gebaseerd op het Diffusion Transformer (DiT) framework ondersteunt LongCat-Video Text-to-Video, Image-to-Video en Video-Vervolg taken met een enkel model.
* **Generatie van lange video's:** Pre-training op Video-Vervolg taken stelt LongCat-Video in staat om hoge kwaliteit en temporele coherentie te behouden bij het genereren van minutenlange video's.
* **Efficiënte inferentie:** LongCat-Video genereert 720p, 30fps video's binnen enkele minuten door een coarse-to-fine generatiestrategie toe te passen langs zowel de temporele als spatiale assen. Block Sparse Attention verbetert de efficiëntie verder, vooral bij hoge resoluties.
* **Sterke prestaties met multi-reward RLHF:** Training met multi-reward Reinforcement Learning from Human Feedback (RLHF) stelt LongCat-Video in staat om prestaties te bereiken die vergelijkbaar zijn met de nieuwste closed-source en toonaangevende open-source modellen.
Code en modelgewichten zijn openbaar beschikbaar om de vooruitgang in het veld te versnellen.
English
Video generation is a critical pathway toward world models, with efficient
long video inference as a key capability. Toward this end, we introduce
LongCat-Video, a foundational video generation model with 13.6B parameters,
delivering strong performance across multiple video generation tasks. It
particularly excels in efficient and high-quality long video generation,
representing our first step toward world models. Key features include: Unified
architecture for multiple tasks: Built on the Diffusion Transformer (DiT)
framework, LongCat-Video supports Text-to-Video, Image-to-Video, and
Video-Continuation tasks with a single model; Long video generation:
Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high
quality and temporal coherence in the generation of minutes-long videos;
Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes
by employing a coarse-to-fine generation strategy along both the temporal and
spatial axes. Block Sparse Attention further enhances efficiency, particularly
at high resolutions; Strong performance with multi-reward RLHF: Multi-reward
RLHF training enables LongCat-Video to achieve performance on par with the
latest closed-source and leading open-source models. Code and model weights are
publicly available to accelerate progress in the field.