Wan-S2V: 오디오 기반 시네마틱 비디오 생성
Wan-S2V: Audio-Driven Cinematic Video Generation
August 26, 2025
저자: Xin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo
cs.AI
초록
현재 오디오 기반 캐릭터 애니메이션 분야의 최첨단(State-of-the-Art, SOTA) 기술들은 주로 말하기와 노래 부르기와 같은 시나리오에서 유망한 성능을 보여주고 있습니다. 그러나 이러한 기술들은 복잡한 영화 및 TV 제작 환경에서 요구되는 세밀한 캐릭터 상호작용, 현실적인 신체 움직임, 역동적인 카메라 워크와 같은 정교한 요소들을 충족시키는 데는 아직 부족한 면이 있습니다. 이러한 영화 수준의 캐릭터 애니메이션을 달성하기 위한 오랜 과제를 해결하기 위해, 우리는 Wan을 기반으로 한 오디오 기반 모델인 Wan-S2V를 제안합니다. 우리의 모델은 기존 접근법들과 비교하여 영화적 맥락에서 훨씬 더 향상된 표현력과 정확도를 달성합니다. 우리는 Hunyuan-Avatar 및 Omnihuman과 같은 최첨단 모델들과의 벤치마킹을 통해 광범위한 실험을 수행했으며, 실험 결과는 우리의 접근 방식이 기존 솔루션들을 크게 능가함을 일관되게 입증합니다. 또한, 우리는 장편 비디오 생성과 정밀한 비디오 립싱크 편집을 통해 우리 방법의 다양성을 탐구합니다.
English
Current state-of-the-art (SOTA) methods for audio-driven character animation
demonstrate promising performance for scenarios primarily involving speech and
singing. However, they often fall short in more complex film and television
productions, which demand sophisticated elements such as nuanced character
interactions, realistic body movements, and dynamic camera work. To address
this long-standing challenge of achieving film-level character animation, we
propose an audio-driven model, which we refere to as Wan-S2V, built upon Wan.
Our model achieves significantly enhanced expressiveness and fidelity in
cinematic contexts compared to existing approaches. We conducted extensive
experiments, benchmarking our method against cutting-edge models such as
Hunyuan-Avatar and Omnihuman. The experimental results consistently demonstrate
that our approach significantly outperforms these existing solutions.
Additionally, we explore the versatility of our method through its applications
in long-form video generation and precise video lip-sync editing.