# Informe Técnico de LongCat-Video

Resumen

La generación de vídeo es una vía crítica hacia los modelos del mundo, siendo la inferencia eficiente de vídeos largos una capacidad clave. Con este fin, presentamos LongCat-Video, un modelo fundamental de generación de vídeo con 13.600 millones de parámetros, que ofrece un rendimiento sólido en múltiples tareas de generación de vídeo. Destaca especialmente en la generación eficiente y de alta calidad de vídeos largos, representando nuestro primer paso hacia los modelos del mundo. Sus características clave incluyen: Arquitectura unificada para múltiples tareas: Basado en el marco Diffusion Transformer (DiT), LongCat-Video admite tareas de Texto-a-Vídeo, Imagen-a-Vídeo y Continuación de Vídeo con un único modelo; Generación de vídeos largos: El preentrenamiento en tareas de Continuación de Vídeo permite a LongCat-Video mantener alta calidad y coherencia temporal en la generación de vídeos de varios minutos de duración; Inferencia eficiente: LongCat-Video genera vídeos en 720p y 30 fps en minutos empleando una estrategia de generación de grueso a fino a lo largo de los ejes temporal y espacial. La atención dispersa por bloques mejora aún más la eficiencia, particularmente en altas resoluciones; Alto rendimiento con RLHF de múltiples recompensas: El entrenamiento con RLHF de múltiples recompensas permite a LongCat-Video lograr un rendimiento comparable con los últimos modelos propietarios y los modelos de código abierto líderes. El código y los pesos del modelo están disponibles públicamente para acelerar el progreso en el campo.

English

Video generation is a critical pathway toward world models, with efficient long video inference as a key capability. Toward this end, we introduce LongCat-Video, a foundational video generation model with 13.6B parameters, delivering strong performance across multiple video generation tasks. It particularly excels in efficient and high-quality long video generation, representing our first step toward world models. Key features include: Unified architecture for multiple tasks: Built on the Diffusion Transformer (DiT) framework, LongCat-Video supports Text-to-Video, Image-to-Video, and Video-Continuation tasks with a single model; Long video generation: Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high quality and temporal coherence in the generation of minutes-long videos; Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes by employing a coarse-to-fine generation strategy along both the temporal and spatial axes. Block Sparse Attention further enhances efficiency, particularly at high resolutions; Strong performance with multi-reward RLHF: Multi-reward RLHF training enables LongCat-Video to achieve performance on par with the latest closed-source and leading open-source models. Code and model weights are publicly available to accelerate progress in the field.

# Informe Técnico de LongCat-Video

LongCat-Video Technical Report

Resumen

Support