Rapport Technique de LongCat-Vidéo

papers.abstract

La génération vidéo est une voie essentielle vers les modèles de monde, avec l'inférence efficace de vidéos longues comme capacité clé. Dans cette optique, nous présentons LongCat-Video, un modèle fondateur de génération vidéo doté de 13,6 milliards de paramètres, offrant des performances solides sur diverses tâches de génération vidéo. Il excelle particulièrement dans la génération efficace et de haute qualité de vidéos longues, représentant notre première étape vers les modèles de monde. Les caractéristiques principales incluent : Architecture unifiée pour multiples tâches : Basé sur le framework Diffusion Transformer (DiT), LongCat-Video prend en charge les tâches Texte-vers-Vidéo, Image-vers-Vidéo et Poursuite Vidéo avec un modèle unique ; Génération de vidéos longues : Le pré-entraînement sur les tâches de Poursuite Vidéo permet à LongCat-Video de maintenir une haute qualité et une cohérence temporelle dans la génération de vidéos de plusieurs minutes ; Inférence efficace : LongCat-Video génère des vidéos 720p à 30 ips en quelques minutes grâce à une stratégie de génération grossière-à-fine sur les axes temporel et spatial. L'Attention Sparse par Blocs améliore encore l'efficacité, particulièrement aux hautes résolutions ; Performances robustes avec RLHF multi-récompenses : L'entraînement RLHF multi-récompenses permet à LongCat-Video d'atteindre des performances comparables aux derniers modèles privateurs et aux modèles open-source leaders. Le code et les poids des modèles sont publiquement disponibles pour accélérer les progrès dans le domaine.

English

Video generation is a critical pathway toward world models, with efficient long video inference as a key capability. Toward this end, we introduce LongCat-Video, a foundational video generation model with 13.6B parameters, delivering strong performance across multiple video generation tasks. It particularly excels in efficient and high-quality long video generation, representing our first step toward world models. Key features include: Unified architecture for multiple tasks: Built on the Diffusion Transformer (DiT) framework, LongCat-Video supports Text-to-Video, Image-to-Video, and Video-Continuation tasks with a single model; Long video generation: Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high quality and temporal coherence in the generation of minutes-long videos; Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes by employing a coarse-to-fine generation strategy along both the temporal and spatial axes. Block Sparse Attention further enhances efficiency, particularly at high resolutions; Strong performance with multi-reward RLHF: Multi-reward RLHF training enables LongCat-Video to achieve performance on par with the latest closed-source and leading open-source models. Code and model weights are publicly available to accelerate progress in the field.

Rapport Technique de LongCat-Vidéo

LongCat-Video Technical Report

papers.abstract

Support