Rapport Technique de LongCat-Vidéo
LongCat-Video Technical Report
October 25, 2025
papers.authors: Meituan LongCat Team, Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang
cs.AI
papers.abstract
La génération vidéo est une voie essentielle vers les modèles de monde, avec l'inférence efficace de vidéos longues comme capacité clé. Dans cette optique, nous présentons LongCat-Video, un modèle fondateur de génération vidéo doté de 13,6 milliards de paramètres, offrant des performances solides sur diverses tâches de génération vidéo. Il excelle particulièrement dans la génération efficace et de haute qualité de vidéos longues, représentant notre première étape vers les modèles de monde. Les caractéristiques principales incluent : Architecture unifiée pour multiples tâches : Basé sur le framework Diffusion Transformer (DiT), LongCat-Video prend en charge les tâches Texte-vers-Vidéo, Image-vers-Vidéo et Poursuite Vidéo avec un modèle unique ; Génération de vidéos longues : Le pré-entraînement sur les tâches de Poursuite Vidéo permet à LongCat-Video de maintenir une haute qualité et une cohérence temporelle dans la génération de vidéos de plusieurs minutes ; Inférence efficace : LongCat-Video génère des vidéos 720p à 30 ips en quelques minutes grâce à une stratégie de génération grossière-à-fine sur les axes temporel et spatial. L'Attention Sparse par Blocs améliore encore l'efficacité, particulièrement aux hautes résolutions ; Performances robustes avec RLHF multi-récompenses : L'entraînement RLHF multi-récompenses permet à LongCat-Video d'atteindre des performances comparables aux derniers modèles privateurs et aux modèles open-source leaders. Le code et les poids des modèles sont publiquement disponibles pour accélérer les progrès dans le domaine.
English
Video generation is a critical pathway toward world models, with efficient
long video inference as a key capability. Toward this end, we introduce
LongCat-Video, a foundational video generation model with 13.6B parameters,
delivering strong performance across multiple video generation tasks. It
particularly excels in efficient and high-quality long video generation,
representing our first step toward world models. Key features include: Unified
architecture for multiple tasks: Built on the Diffusion Transformer (DiT)
framework, LongCat-Video supports Text-to-Video, Image-to-Video, and
Video-Continuation tasks with a single model; Long video generation:
Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high
quality and temporal coherence in the generation of minutes-long videos;
Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes
by employing a coarse-to-fine generation strategy along both the temporal and
spatial axes. Block Sparse Attention further enhances efficiency, particularly
at high resolutions; Strong performance with multi-reward RLHF: Multi-reward
RLHF training enables LongCat-Video to achieve performance on par with the
latest closed-source and leading open-source models. Code and model weights are
publicly available to accelerate progress in the field.