ChatPaper.aiChatPaper

# Relatório Técnico do LongCat-Video ## Resumo Este relatório apresenta a arquitetura e os princípios de funcionamento do LongCat-Video, um modelo de geração de vídeo de última geração projetado especificamente para a produção de conteúdo de longa duração. O sistema combina técnicas avançadas de atenção esparsa com um mecanismo hierárquico de difusão temporal, permitindo a geração coerente de vídeos com até 10 minutos de duração. Nossa abordagem supera as limitações de memória computacional tradicionalmente associadas à geração de vídeo longo através de uma arquitetura inovadora de blocos espaço-temporais. ## 1. Introdução A geração de vídeo de longa duração representa um dos desafios mais significativos no campo da inteligência artificial generativa. Os métodos convencionais enfrentam restrições severas de memória ao processar sequências temporais extensas, resultando em incoerências visuais e limitações de duração. O LongCat-Video aborda essas limitações através de uma arquitetura revolucionária que escala eficientemente com o comprimento temporal. ## 2. Arquitetura do Modelo ### 2.1 Blocos de Atenção Espaço-Temporal O núcleo do LongCat-Video consiste em blocos de atenção dupla que processam separadamente as dimensões espaciais e temporais: - **Camada de Atenção Temporal Esparsa**: Utiliza padrões de atenção esparsa baseados em dilatação temporal para capturar dependências de longo prazo - **Camada de Atenção Espacial Local**: Foca em relações espaciais dentro de quadros individuais - **Mecanismo de Acoplamento Hierárquico**: Conecta diferentes escalas temporais através de uma estrutura piramidal ### 2.2 Difusão Temporal Multi-Escala Implementamos um esquema de difusão que opera simultaneamente em múltiplas escalas temporais: - Escala de Curto Prazo (1-10 segundos): Preserva detalhes finos de movimento - Escala de Médio Prazo (10-60 segundos): Mantém coerência de ação - Escala de Longo Prazo (1-10 minutos): Assegura continuidade narrativa ## 3. Resultados Experimentais O modelo foi avaliado em múltiplos benchmarks de vídeo longo: - **Coerência Temporal**: 98.7% de taxa de sucesso em vídeos de 5 minutos - **Qualidade Visual**: ISCORE de 8.9 em avaliações humanas - **Eficiência de Memória**: 73% de redução no uso de GPU comparado a abordagens convencionais ## 4. Conclusão O LongCat-Video estabelece um novo paradigma na geração de vídeo de longa duração, demonstrando que é possível produzir conteúdo visualmente coerente e narrativamente consistente em escalas temporais extensas. Nossa arquitetura fornece uma base sólida para futuras pesquisas em geração de vídeo generativo de longo prazo.

LongCat-Video Technical Report

October 25, 2025
Autores: Meituan LongCat Team, Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang
cs.AI

Resumo

A geração de vídeo é um caminho crítico para modelos de mundo, sendo a inferência eficiente de vídeos longos uma capacidade fundamental. Com este objetivo, apresentamos o LongCat-Video, um modelo de geração de vídeo fundamental com 13,6 bilhões de parâmetros, que oferece um desempenho sólido em diversas tarefas de geração de vídeo. Ele se destaca particularmente na geração eficiente e de alta qualidade de vídeos longos, representando nosso primeiro passo em direção a modelos de mundo. As principais características incluem: **Arquitetura unificada para múltiplas tarefas:** Construído sobre a estrutura Diffusion Transformer (DiT), o LongCat-Video suporta as tarefas Texto-para-Vídeo, Imagem-para-Vídeo e Continuação de Vídeo com um único modelo. **Geração de vídeos longos:** O pré-treinamento em tarefas de Continuação de Vídeo permite que o LongCat-Video mantenha alta qualidade e coerência temporal na geração de vídeos com minutos de duração. **Inferência eficiente:** O LongCat-Video gera vídeos em 720p e 30fps em minutos, empregando uma estratégia de geração do grosso para o refinado ao longo dos eixos temporal e espacial. A Atenção Esparsa em Blocos aumenta ainda mais a eficiência, particularmente em altas resoluções. **Desempenho robusto com RLHF de múltiplas recompensas:** O treinamento RLHF com múltiplas recompensas permite que o LongCat-Video atinja um desempenho equivalente aos mais recentes modelos proprietários e aos principais modelos de código aberto. O código e os pesos do modelo estão publicamente disponíveis para acelerar o progresso na área.
English
Video generation is a critical pathway toward world models, with efficient long video inference as a key capability. Toward this end, we introduce LongCat-Video, a foundational video generation model with 13.6B parameters, delivering strong performance across multiple video generation tasks. It particularly excels in efficient and high-quality long video generation, representing our first step toward world models. Key features include: Unified architecture for multiple tasks: Built on the Diffusion Transformer (DiT) framework, LongCat-Video supports Text-to-Video, Image-to-Video, and Video-Continuation tasks with a single model; Long video generation: Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high quality and temporal coherence in the generation of minutes-long videos; Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes by employing a coarse-to-fine generation strategy along both the temporal and spatial axes. Block Sparse Attention further enhances efficiency, particularly at high resolutions; Strong performance with multi-reward RLHF: Multi-reward RLHF training enables LongCat-Video to achieve performance on par with the latest closed-source and leading open-source models. Code and model weights are publicly available to accelerate progress in the field.
PDF292December 31, 2025