ChatPaper.aiChatPaper

Wan-S2V: Geração de Vídeo Cinematográfico Orientada por Áudio

Wan-S2V: Audio-Driven Cinematic Video Generation

August 26, 2025
Autores: Xin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo
cs.AI

Resumo

Os métodos atuais de última geração (SOTA) para animação de personagens impulsionada por áudio demonstram desempenho promissor em cenários que envolvem principalmente fala e canto. No entanto, eles frequentemente ficam aquém em produções mais complexas de cinema e televisão, que exigem elementos sofisticados, como interações sutis entre personagens, movimentos corporais realistas e trabalho dinâmico de câmera. Para enfrentar esse desafio de longa data de alcançar animação de personagens em nível cinematográfico, propomos um modelo impulsionado por áudio, que denominamos Wan-S2V, construído com base em Wan. Nosso modelo alcança expressividade e fidelidade significativamente aprimoradas em contextos cinematográficos em comparação com abordagens existentes. Realizamos extensos experimentos, comparando nosso método com modelos de ponta, como Hunyuan-Avatar e Omnihuman. Os resultados experimentais demonstram consistentemente que nossa abordagem supera significativamente essas soluções existentes. Além disso, exploramos a versatilidade de nosso método por meio de suas aplicações na geração de vídeos de longa duração e na edição precisa de sincronização labial em vídeos.
English
Current state-of-the-art (SOTA) methods for audio-driven character animation demonstrate promising performance for scenarios primarily involving speech and singing. However, they often fall short in more complex film and television productions, which demand sophisticated elements such as nuanced character interactions, realistic body movements, and dynamic camera work. To address this long-standing challenge of achieving film-level character animation, we propose an audio-driven model, which we refere to as Wan-S2V, built upon Wan. Our model achieves significantly enhanced expressiveness and fidelity in cinematic contexts compared to existing approaches. We conducted extensive experiments, benchmarking our method against cutting-edge models such as Hunyuan-Avatar and Omnihuman. The experimental results consistently demonstrate that our approach significantly outperforms these existing solutions. Additionally, we explore the versatility of our method through its applications in long-form video generation and precise video lip-sync editing.
PDF162August 27, 2025