Loopy: Domare l'Avatar di Ritratto Audio-Driven con Dipendenza di Movimento a Lungo Termine
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency
September 4, 2024
Autori: Jianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng
cs.AI
Abstract
Con l'introduzione delle tecniche di generazione video basate sulla diffusione, la generazione di video umani condizionata dall'audio ha recentemente raggiunto significativi progressi sia nella naturalezza del movimento che nella sintesi dei dettagli del ritratto. A causa del limitato controllo dei segnali audio nel guidare il movimento umano, i metodi esistenti spesso aggiungono segnali spaziali ausiliari per stabilizzare i movimenti, compromettendo la naturalezza e la libertà di movimento. In questo articolo, proponiamo un modello di diffusione video condizionato solo dall'audio end-to-end chiamato Loopy. In particolare, abbiamo progettato un modulo temporale interno ed intra-clip e un modulo audio-a-latenti, consentendo al modello di sfruttare le informazioni sul movimento a lungo termine dai dati per apprendere modelli di movimento naturali e migliorare la correlazione tra movimento audio-ritratto. Questo metodo elimina la necessità di specificare manualmente modelli di movimento spaziale utilizzati nei metodi esistenti per vincolare il movimento durante l'inferenza. Estesi esperimenti mostrano che Loopy supera i recenti modelli di diffusione di ritratti guidati dall'audio, offrendo risultati più realistici e di alta qualità in vari scenari.
English
With the introduction of diffusion-based video generation techniques,
audio-conditioned human video generation has recently achieved significant
breakthroughs in both the naturalness of motion and the synthesis of portrait
details. Due to the limited control of audio signals in driving human motion,
existing methods often add auxiliary spatial signals to stabilize movements,
which may compromise the naturalness and freedom of motion. In this paper, we
propose an end-to-end audio-only conditioned video diffusion model named Loopy.
Specifically, we designed an inter- and intra-clip temporal module and an
audio-to-latents module, enabling the model to leverage long-term motion
information from the data to learn natural motion patterns and improving
audio-portrait movement correlation. This method removes the need for manually
specified spatial motion templates used in existing methods to constrain motion
during inference. Extensive experiments show that Loopy outperforms recent
audio-driven portrait diffusion models, delivering more lifelike and
high-quality results across various scenarios.