Technisch Rapport LongCat-Video

Samenvatting

Videogeneratie is een cruciale weg naar wereldmodellen, waarbij efficiënte inferentie van lange video's een sleutelcapaciteit is. Hiertoe introduceren we LongCat-Video, een fundamenteel videogeneratiemodel met 13,6B parameters, dat sterke prestaties levert bij diverse videogeneratietaken. Het blinkt vooral uit in efficiënte en hoogwaardige generatie van lange video's, wat onze eerste stap vertegenwoordigt naar wereldmodellen. Belangrijke kenmerken zijn: * **Unificieke architectuur voor meerdere taken:** Gebaseerd op het Diffusion Transformer (DiT) framework ondersteunt LongCat-Video Text-to-Video, Image-to-Video en Video-Vervolg taken met een enkel model. * **Generatie van lange video's:** Pre-training op Video-Vervolg taken stelt LongCat-Video in staat om hoge kwaliteit en temporele coherentie te behouden bij het genereren van minutenlange video's. * **Efficiënte inferentie:** LongCat-Video genereert 720p, 30fps video's binnen enkele minuten door een coarse-to-fine generatiestrategie toe te passen langs zowel de temporele als spatiale assen. Block Sparse Attention verbetert de efficiëntie verder, vooral bij hoge resoluties. * **Sterke prestaties met multi-reward RLHF:** Training met multi-reward Reinforcement Learning from Human Feedback (RLHF) stelt LongCat-Video in staat om prestaties te bereiken die vergelijkbaar zijn met de nieuwste closed-source en toonaangevende open-source modellen. Code en modelgewichten zijn openbaar beschikbaar om de vooruitgang in het veld te versnellen.

English

Video generation is a critical pathway toward world models, with efficient long video inference as a key capability. Toward this end, we introduce LongCat-Video, a foundational video generation model with 13.6B parameters, delivering strong performance across multiple video generation tasks. It particularly excels in efficient and high-quality long video generation, representing our first step toward world models. Key features include: Unified architecture for multiple tasks: Built on the Diffusion Transformer (DiT) framework, LongCat-Video supports Text-to-Video, Image-to-Video, and Video-Continuation tasks with a single model; Long video generation: Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high quality and temporal coherence in the generation of minutes-long videos; Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes by employing a coarse-to-fine generation strategy along both the temporal and spatial axes. Block Sparse Attention further enhances efficiency, particularly at high resolutions; Strong performance with multi-reward RLHF: Multi-reward RLHF training enables LongCat-Video to achieve performance on par with the latest closed-source and leading open-source models. Code and model weights are publicly available to accelerate progress in the field.

Technisch Rapport LongCat-Video

LongCat-Video Technical Report

Samenvatting

Support