EMO2 : Génération de vidéos d'avatar guidée par audio et dirigée par l'effecteur final
EMO2: End-Effector Guided Audio-Driven Avatar Video Generation
January 18, 2025
Auteurs: Linrui Tian, Siqi Hu, Qi Wang, Bang Zhang, Liefeng Bo
cs.AI
Résumé
Dans cet article, nous proposons une nouvelle méthode de génération de tête parlante pilotée par l'audio capable de générer simultanément des expressions faciales et des gestes de la main hautement expressifs. Contrairement aux méthodes existantes qui se concentrent sur la génération de poses de corps entier ou de demi-corps, nous examinons les défis de la génération de gestes co-verbaux et identifions la faible correspondance entre les caractéristiques audio et les gestes de corps entier comme une limitation clé. Pour y remédier, nous redéfinissons la tâche comme un processus en deux étapes. Dans la première étape, nous générons directement des poses de main à partir de l'entrée audio, en exploitant la forte corrélation entre les signaux audio et les mouvements de la main. Dans la deuxième étape, nous utilisons un modèle de diffusion pour synthétiser des images vidéo, en incorporant les poses de main générées dans la première étape pour produire des expressions faciales réalistes et des mouvements corporels. Nos résultats expérimentaux démontrent que la méthode proposée surpasse les approches de pointe, telles que CyberHost et Vlogger, en termes de qualité visuelle et de précision de synchronisation. Ce travail offre une nouvelle perspective sur la génération de gestes pilotée par l'audio et un cadre robuste pour créer des animations de tête parlante expressives et naturelles.
English
In this paper, we propose a novel audio-driven talking head method capable of
simultaneously generating highly expressive facial expressions and hand
gestures. Unlike existing methods that focus on generating full-body or
half-body poses, we investigate the challenges of co-speech gesture generation
and identify the weak correspondence between audio features and full-body
gestures as a key limitation. To address this, we redefine the task as a
two-stage process. In the first stage, we generate hand poses directly from
audio input, leveraging the strong correlation between audio signals and hand
movements. In the second stage, we employ a diffusion model to synthesize video
frames, incorporating the hand poses generated in the first stage to produce
realistic facial expressions and body movements. Our experimental results
demonstrate that the proposed method outperforms state-of-the-art approaches,
such as CyberHost and Vlogger, in terms of both visual quality and
synchronization accuracy. This work provides a new perspective on audio-driven
gesture generation and a robust framework for creating expressive and natural
talking head animations.Summary
AI-Generated Summary