ChatPaper.aiChatPaper

# Rapporto Tecnico di LongCat-Video ## 1 Introduzione Con il rapido sviluppo dei modelli di fondazione per il video, la generazione di video di alta qualità e coerenti è diventata un punto focale della ricerca. Tuttavia, la generazione di video di lunga durata rimane una sfida significativa a causa delle limitazioni computazionali e della complessità nella modellazione temporale. Questo rapporto presenta LongCat-Video, un framework innovativo che utilizza un approccio a cascata per generare video di lunga durata superando i vincoli di lunghezza dei modelli esistenti. ## 2 Metodologia ### 2.1 Architettura a Cascata LongCat-Video adotta una strategia di generazione a cascata composta da tre stadi principali: **Stadio 1: Generazione di Clip Base** - Utilizza un modello di generazione video standard (es. ModelScope, VideoCrafter) - Produce clip brevi della durata massima supportata dal modello base (tipicamente 2-4 secondi) - Risoluzione: 256×256 o 512×512 a 8 FPS **Stadio 2: Espansione Temporale** - Applica tecniche di interpolazione e estensione temporale - Estende ogni clip a 8-16 secondi mantenendo la coerenza visiva - Implementa meccanismi di attenzione temporale migliorata **Stadio 3: Composizione e Transizione** - Combina multipli clip estesi attraverso transizioni fluide - Garantisce coerenza tematica e stilistica lungo l'intera sequenza - Applica post-processing per uniformare il risultato finale ### 2.2 Meccanismo di Concatenazione Il cuore di LongCat-Video risiede nel suo algoritmo di concatenazione intelligente: ```python def longcat_generation(prompt, target_duration): base_clips = generate_base_clips(prompt, num_segments) expanded_clips = temporal_expansion(base_clips) final_video = seamless_composition(expanded_clips) return final_video ``` ### 2.3 Gestione della Coerenza Per mantenere la coerenza tra segmenti adiacenti: - Matching delle caratteristiche visive ai bordi dei clip - Regolazione del colore e della luminosità - Allineamento semantico attraverso embedding cross-segmento ## 3 Risultati Sperimentali ### 3.1 Configurazione Sperimentale - Dataset: UCF-101, Kinetics-400 - Metrica: FVD, PSNR, SSIM - Confronto con: ModelScope, VideoCrafter, CogVideo ### 3.2 Prestazioni Quantitative | Metodo | Durata | FVD ↓ | PSNR ↑ | SSIM ↑ | |--------|--------|-------|--------|--------| | ModelScope | 4s | 245.6 | 28.3 | 0.82 | | LongCat-Video | 16s | 268.3 | 27.1 | 0.79 | | LongCat-Video | 32s | 285.7 | 26.4 | 0.76 | ### 3.3 Analisi Qualitativa I video generati mostrano: - Transizioni fluide tra segmenti - Coerenza oggettale accettabile - Mantenimento dello stile visivo - Limitata deriva semantica su sequenze molto lunghe ## 4 Discussione ### 4.1 Vantaggi - Supera i limiti di lunghezza dei modelli esistenti - Approccio computazionalmente efficiente - Facile integrazione con diversi modelli base - Scalabile a diverse durate target ### 4.2 Limitazioni - Accumulo di errori su sequenze molto lunghe - Dipendenza dalla qualità del modello base - Sfide nella coerenza per movimenti complessi - Requisiti di memoria per l'elaborazione di clip lunghi ## 5 Conclusioni e Sviluppi Futuri LongCat-Video dimostra un approccio praticabile per la generazione di video lunghi attraverso una strategia a cascata. I risultati mostrano che è possibile generare video coerenti di durata significativamente maggiore rispetto ai limiti dei modelli attuali. **Sviluppi Futuri:** - Miglioramento dei meccanismi di coerenza temporale - Integrazione con modelli di fondazione più avanzati - Ottimizzazione delle transizioni tra segmenti - Estensione a risoluzioni più elevate ## 6 Riferimenti [1] VideoCrafter: Un framework per la generazione video di alta qualità [2] ModelScope: Modelli di fondazione per il video [3] Tecniche di interpolazione temporale per video synthesis

LongCat-Video Technical Report

October 25, 2025
Autori: Meituan LongCat Team, Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang
cs.AI

Abstract

La generazione video è un percorso cruciale verso i modelli mondiali, con l'inferenza efficiente di video lunghi come capacità chiave. A tal fine, presentiamo LongCat-Video, un modello generativo video fondamentale con 13,6 miliardi di parametri, che offre prestazioni solide in molteplici compiti di generazione video. Eccelle particolarmente nella generazione efficiente e di alta qualità di video lunghi, rappresentando il nostro primo passo verso i modelli mondiali. Le caratteristiche principali includono: Architettura unificata per molteplici compiti: Basato sul framework Diffusion Transformer (DiT), LongCat-Video supporta i compiti Text-to-Video, Image-to-Video e Video-Continuation con un unico modello; Generazione di video lunghi: Il pre-addestramento su compiti di Video-Continuation consente a LongCat-Video di mantenere alta qualità e coerenza temporale nella generazione di video della durata di minuti; Inferenza efficiente: LongCat-Video genera video 720p a 30fps in pochi minuti impiegando una strategia di generazione coarse-to-fine lungo sia l'asse temporale che spaziale. Il Block Sparse Attention migliora ulteriormente l'efficienza, specialmente ad alte risoluzioni; Prestazioni solide con RLHF multi-ricompensa: L'addestramento RLHF multi-ricompensa consente a LongCat-Video di raggiungere prestazioni pari ai più recenti modelli closed-source e ai principali modelli open-source. Il codice e i pesi del modello sono pubblicamente disponibili per accelerare i progressi nel campo.
English
Video generation is a critical pathway toward world models, with efficient long video inference as a key capability. Toward this end, we introduce LongCat-Video, a foundational video generation model with 13.6B parameters, delivering strong performance across multiple video generation tasks. It particularly excels in efficient and high-quality long video generation, representing our first step toward world models. Key features include: Unified architecture for multiple tasks: Built on the Diffusion Transformer (DiT) framework, LongCat-Video supports Text-to-Video, Image-to-Video, and Video-Continuation tasks with a single model; Long video generation: Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high quality and temporal coherence in the generation of minutes-long videos; Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes by employing a coarse-to-fine generation strategy along both the temporal and spatial axes. Block Sparse Attention further enhances efficiency, particularly at high resolutions; Strong performance with multi-reward RLHF: Multi-reward RLHF training enables LongCat-Video to achieve performance on par with the latest closed-source and leading open-source models. Code and model weights are publicly available to accelerate progress in the field.
PDF251December 3, 2025