Avatar Forcing: Generazione in Tempo Reale di Avatar Facciali per Conversazioni Naturali

Abstract

La generazione di teste parlanti crea avatar realistici a partire da ritratti statici per la comunicazione virtuale e la creazione di contenuti. Tuttavia, i modelli attuali non riescono ancora a trasmettere la sensazione di una comunicazione veramente interattiva, generando spesso risposte unidirezionali che mancano di coinvolgimento emotivo. Identifichiamo due sfide principali verso avatar pienamente interattivi: generare il movimento in tempo reale sotto vincoli di causalità e apprendere reazioni espressive e vivaci senza dati etichettati aggiuntivi. Per affrontare queste sfide, proponiamo Avatar Forcing, un nuovo framework per la generazione interattiva di avatar che modella le interazioni utente-avatar in tempo reale attraverso il forcing di diffusione. Questo design consente all'avatar di elaborare input multimodali in tempo reale, inclusi audio e movimento dell'utente, con bassa latenza per reazioni immediate a segnali verbali e non verbali come parole, cenni del capo e risate. Inoltre, introduciamo un metodo di ottimizzazione delle preferenze dirette che sfrutta campioni sintetici costruiti eliminando le condizioni utente, permettendo un apprendimento espressivo dell'interazione senza etichette. I risultati sperimentali dimostrano che il nostro framework abilita l'interazione in tempo reale con bassa latenza (circa 500ms), raggiungendo un'accelerazione di 6,8X rispetto al baseline, e produce movimenti dell'avatar reattivi ed espressivi, preferiti per oltre l'80% rispetto al baseline.

English

Talking head generation creates lifelike avatars from static portraits for virtual communication and content creation. However, current models do not yet convey the feeling of truly interactive communication, often generating one-way responses that lack emotional engagement. We identify two key challenges toward truly interactive avatars: generating motion in real-time under causal constraints and learning expressive, vibrant reactions without additional labeled data. To address these challenges, we propose Avatar Forcing, a new framework for interactive head avatar generation that models real-time user-avatar interactions through diffusion forcing. This design allows the avatar to process real-time multimodal inputs, including the user's audio and motion, with low latency for instant reactions to both verbal and non-verbal cues such as speech, nods, and laughter. Furthermore, we introduce a direct preference optimization method that leverages synthetic losing samples constructed by dropping user conditions, enabling label-free learning of expressive interaction. Experimental results demonstrate that our framework enables real-time interaction with low latency (approximately 500ms), achieving 6.8X speedup compared to the baseline, and produces reactive and expressive avatar motion, which is preferred over 80% against the baseline.

Avatar Forcing: Generazione in Tempo Reale di Avatar Facciali per Conversazioni Naturali

Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation

Abstract

Support