Wan-Animate: Animazione e Sostituzione Unificata dei Personaggi con Replica Olistica

Abstract

Presentiamo Wan-Animate, un framework unificato per l'animazione e la sostituzione di personaggi. Dati un'immagine di un personaggio e un video di riferimento, Wan-Animate è in grado di animare il personaggio replicando con precisione le espressioni e i movimenti del personaggio nel video, generando così video di personaggi ad alta fedeltà. In alternativa, può integrare il personaggio animato nel video di riferimento per sostituire il personaggio originale, replicando l'illuminazione e la tonalità del colore della scena per ottenere un'integrazione ambientale senza soluzione di continuità. Wan-Animate è basato sul modello Wan. Per adattarlo ai compiti di animazione dei personaggi, utilizziamo un paradigma di input modificato per differenziare le condizioni di riferimento e le regioni per la generazione. Questo design unifica più compiti in una rappresentazione simbolica comune. Utilizziamo segnali scheletrici allineati spazialmente per replicare il movimento del corpo e caratteristiche facciali implicite estratte dalle immagini sorgente per riprodurre le espressioni, consentendo la generazione di video di personaggi con elevata controllabilità ed espressività. Inoltre, per migliorare l'integrazione ambientale durante la sostituzione del personaggio, sviluppiamo un modulo ausiliario Relighting LoRA. Questo modulo preserva la coerenza dell'aspetto del personaggio applicando l'illuminazione e la tonalità del colore ambientali appropriate. I risultati sperimentali dimostrano che Wan-Animate raggiunge prestazioni all'avanguardia. Ci impegniamo a rendere open-source i pesi del modello e il suo codice sorgente.

English

We introduce Wan-Animate, a unified framework for character animation and replacement. Given a character image and a reference video, Wan-Animate can animate the character by precisely replicating the expressions and movements of the character in the video to generate high-fidelity character videos. Alternatively, it can integrate the animated character into the reference video to replace the original character, replicating the scene's lighting and color tone to achieve seamless environmental integration. Wan-Animate is built upon the Wan model. To adapt it for character animation tasks, we employ a modified input paradigm to differentiate between reference conditions and regions for generation. This design unifies multiple tasks into a common symbolic representation. We use spatially-aligned skeleton signals to replicate body motion and implicit facial features extracted from source images to reenact expressions, enabling the generation of character videos with high controllability and expressiveness. Furthermore, to enhance environmental integration during character replacement, we develop an auxiliary Relighting LoRA. This module preserves the character's appearance consistency while applying the appropriate environmental lighting and color tone. Experimental results demonstrate that Wan-Animate achieves state-of-the-art performance. We are committed to open-sourcing the model weights and its source code.

Wan-Animate: Animazione e Sostituzione Unificata dei Personaggi con Replica Olistica

Wan-Animate: Unified Character Animation and Replacement with Holistic Replication

Abstract

Support