Wan-S2V: Audiogestuurde Generatie van Cinematische Video's

Samenvatting

De huidige state-of-the-art (SOTA) methoden voor audio-gestuurde karakteranimatie tonen veelbelovende prestaties voor scenario's die voornamelijk spraak en zingen omvatten. Echter, schieten ze vaak tekort in complexere film- en televisieproducties, waarbij verfijnde elementen zoals genuanceerde karakterinteracties, realistische lichaamsbewegingen en dynamisch camerawerk vereist zijn. Om deze lang bestaande uitdaging van het bereiken van filmwaardige karakteranimatie aan te pakken, stellen we een audio-gestuurd model voor, dat we Wan-S2V noemen, gebaseerd op Wan. Ons model bereikt een aanzienlijk verbeterde expressiviteit en geloofwaardigheid in cinematische contexten vergeleken met bestaande benaderingen. We hebben uitgebreide experimenten uitgevoerd, waarbij we onze methode benchmarkten tegen geavanceerde modellen zoals Hunyuan-Avatar en Omnihuman. De experimentele resultaten tonen consistent aan dat onze aanpak deze bestaande oplossingen significant overtreft. Daarnaast onderzoeken we de veelzijdigheid van onze methode door toepassingen in lange videogeneratie en precieze video-lip-sync-bewerking.

English

Current state-of-the-art (SOTA) methods for audio-driven character animation demonstrate promising performance for scenarios primarily involving speech and singing. However, they often fall short in more complex film and television productions, which demand sophisticated elements such as nuanced character interactions, realistic body movements, and dynamic camera work. To address this long-standing challenge of achieving film-level character animation, we propose an audio-driven model, which we refere to as Wan-S2V, built upon Wan. Our model achieves significantly enhanced expressiveness and fidelity in cinematic contexts compared to existing approaches. We conducted extensive experiments, benchmarking our method against cutting-edge models such as Hunyuan-Avatar and Omnihuman. The experimental results consistently demonstrate that our approach significantly outperforms these existing solutions. Additionally, we explore the versatility of our method through its applications in long-form video generation and precise video lip-sync editing.

Wan-S2V: Audiogestuurde Generatie van Cinematische Video's

Wan-S2V: Audio-Driven Cinematic Video Generation

Samenvatting

Support