# Informe Técnico de LongCat-Video
LongCat-Video Technical Report
October 25, 2025
Autores: Meituan LongCat Team, Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang
cs.AI
Resumen
La generación de vídeo es una vía crítica hacia los modelos del mundo, siendo la inferencia eficiente de vídeos largos una capacidad clave. Con este fin, presentamos LongCat-Video, un modelo fundamental de generación de vídeo con 13.600 millones de parámetros, que ofrece un rendimiento sólido en múltiples tareas de generación de vídeo. Destaca especialmente en la generación eficiente y de alta calidad de vídeos largos, representando nuestro primer paso hacia los modelos del mundo. Sus características clave incluyen: Arquitectura unificada para múltiples tareas: Basado en el marco Diffusion Transformer (DiT), LongCat-Video admite tareas de Texto-a-Vídeo, Imagen-a-Vídeo y Continuación de Vídeo con un único modelo; Generación de vídeos largos: El preentrenamiento en tareas de Continuación de Vídeo permite a LongCat-Video mantener alta calidad y coherencia temporal en la generación de vídeos de varios minutos de duración; Inferencia eficiente: LongCat-Video genera vídeos en 720p y 30 fps en minutos empleando una estrategia de generación de grueso a fino a lo largo de los ejes temporal y espacial. La atención dispersa por bloques mejora aún más la eficiencia, particularmente en altas resoluciones; Alto rendimiento con RLHF de múltiples recompensas: El entrenamiento con RLHF de múltiples recompensas permite a LongCat-Video lograr un rendimiento comparable con los últimos modelos propietarios y los modelos de código abierto líderes. El código y los pesos del modelo están disponibles públicamente para acelerar el progreso en el campo.
English
Video generation is a critical pathway toward world models, with efficient
long video inference as a key capability. Toward this end, we introduce
LongCat-Video, a foundational video generation model with 13.6B parameters,
delivering strong performance across multiple video generation tasks. It
particularly excels in efficient and high-quality long video generation,
representing our first step toward world models. Key features include: Unified
architecture for multiple tasks: Built on the Diffusion Transformer (DiT)
framework, LongCat-Video supports Text-to-Video, Image-to-Video, and
Video-Continuation tasks with a single model; Long video generation:
Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high
quality and temporal coherence in the generation of minutes-long videos;
Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes
by employing a coarse-to-fine generation strategy along both the temporal and
spatial axes. Block Sparse Attention further enhances efficiency, particularly
at high resolutions; Strong performance with multi-reward RLHF: Multi-reward
RLHF training enables LongCat-Video to achieve performance on par with the
latest closed-source and leading open-source models. Code and model weights are
publicly available to accelerate progress in the field.