Uma Análise sobre a Geração de Narrativas em Vídeos Longos: Arquiteturas, Consistência e Qualidade Cinematográfica

Resumo

Apesar dos avanços significativos alcançados nos modelos generativos de vídeo, os métodos atuais de ponta só conseguem produzir vídeos com duração de 5 a 16 segundos, frequentemente rotulados como "vídeos de longa duração". Além disso, vídeos que excedem 16 segundos enfrentam dificuldades para manter aparências consistentes de personagens e layouts de cena ao longo da narrativa. Em particular, vídeos longos com múltiplos sujeitos ainda não conseguem preservar a consistência dos personagens e a coerência dos movimentos. Embora alguns métodos possam gerar vídeos de até 150 segundos, eles frequentemente sofrem com redundância de quadros e baixa diversidade temporal. Trabalhos recentes têm tentado produzir vídeos de longa duração com múltiplos personagens, coerência narrativa e detalhes de alta fidelidade. Estudamos detalhadamente 32 artigos sobre geração de vídeo para identificar componentes arquitetônicos e estratégias de treinamento que consistentemente produzem essas qualidades. Também construímos uma taxonomia abrangente e inovadora dos métodos existentes e apresentamos tabelas comparativas que categorizam os artigos por seus designs arquitetônicos e características de desempenho.

English

Despite the significant progress that has been made in video generative models, existing state-of-the-art methods can only produce videos lasting 5-16 seconds, often labeled "long-form videos". Furthermore, videos exceeding 16 seconds struggle to maintain consistent character appearances and scene layouts throughout the narrative. In particular, multi-subject long videos still fail to preserve character consistency and motion coherence. While some methods can generate videos up to 150 seconds long, they often suffer from frame redundancy and low temporal diversity. Recent work has attempted to produce long-form videos featuring multiple characters, narrative coherence, and high-fidelity detail. We comprehensively studied 32 papers on video generation to identify key architectural components and training strategies that consistently yield these qualities. We also construct a comprehensive novel taxonomy of existing methods and present comparative tables that categorize papers by their architectural designs and performance characteristics.

Uma Análise sobre a Geração de Narrativas em Vídeos Longos: Arquiteturas, Consistência e Qualidade Cinematográfica

A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

Resumo

Support