ChatPaper.aiChatPaper

# Informe Técnico de LongCat-Video

LongCat-Video Technical Report

October 25, 2025
Autores: Meituan LongCat Team, Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang
cs.AI

Resumen

La generación de vídeo es una vía crítica hacia los modelos del mundo, siendo la inferencia eficiente de vídeos largos una capacidad clave. Con este fin, presentamos LongCat-Video, un modelo fundamental de generación de vídeo con 13.600 millones de parámetros, que ofrece un rendimiento sólido en múltiples tareas de generación de vídeo. Destaca especialmente en la generación eficiente y de alta calidad de vídeos largos, representando nuestro primer paso hacia los modelos del mundo. Sus características clave incluyen: Arquitectura unificada para múltiples tareas: Basado en el marco Diffusion Transformer (DiT), LongCat-Video admite tareas de Texto-a-Vídeo, Imagen-a-Vídeo y Continuación de Vídeo con un único modelo; Generación de vídeos largos: El preentrenamiento en tareas de Continuación de Vídeo permite a LongCat-Video mantener alta calidad y coherencia temporal en la generación de vídeos de varios minutos de duración; Inferencia eficiente: LongCat-Video genera vídeos en 720p y 30 fps en minutos empleando una estrategia de generación de grueso a fino a lo largo de los ejes temporal y espacial. La atención dispersa por bloques mejora aún más la eficiencia, particularmente en altas resoluciones; Alto rendimiento con RLHF de múltiples recompensas: El entrenamiento con RLHF de múltiples recompensas permite a LongCat-Video lograr un rendimiento comparable con los últimos modelos propietarios y los modelos de código abierto líderes. El código y los pesos del modelo están disponibles públicamente para acelerar el progreso en el campo.
English
Video generation is a critical pathway toward world models, with efficient long video inference as a key capability. Toward this end, we introduce LongCat-Video, a foundational video generation model with 13.6B parameters, delivering strong performance across multiple video generation tasks. It particularly excels in efficient and high-quality long video generation, representing our first step toward world models. Key features include: Unified architecture for multiple tasks: Built on the Diffusion Transformer (DiT) framework, LongCat-Video supports Text-to-Video, Image-to-Video, and Video-Continuation tasks with a single model; Long video generation: Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high quality and temporal coherence in the generation of minutes-long videos; Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes by employing a coarse-to-fine generation strategy along both the temporal and spatial axes. Block Sparse Attention further enhances efficiency, particularly at high resolutions; Strong performance with multi-reward RLHF: Multi-reward RLHF training enables LongCat-Video to achieve performance on par with the latest closed-source and leading open-source models. Code and model weights are publicly available to accelerate progress in the field.
PDF292December 31, 2025