아바타 강제 생성: 자연스러운 대화를 위한 실시간 인터랙티브 헤드 아바타 생성
Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation
January 2, 2026
저자: Taekyung Ki, Sangwon Jang, Jaehyeong Jo, Jaehong Yoon, Sung Ju Hwang
cs.AI
초록
토킹 헤드 생성 기술은 정적 초상화로부터 생동감 있는 아바타를 생성하여 가상 커뮤니케이션과 콘텐츠 제작에 활용됩니다. 그러나 현재 모델들은 진정한 상호작용적 소통의 느낌을 전달하지 못하며, 종종 정서적 몰입감이 부족한 일방적인 응답을 생성합니다. 우리는 진정으로 상호작용적인 아바타를 구현하기 위한 두 가지 핵심 과제를 확인했습니다: 인과적 제약 하에서 실시간으로 모션을 생성하는 것과 추가적인 레이블 데이터 없이도 표현력 있고 생동감 있는 반응을 학습하는 것입니다. 이러한 과제를 해결하기 위해 우리는 확산 강제(forcing)를 통해 실시간 사용자-아바타 상호작용을 모델링하는 새로운 상호작용형 헤드 아바타 생성 프레임워크인 Avatar Forcing을 제안합니다. 이 설계를 통해 아바타는 사용자의 음성 및 모션을 포함한 실시간 멀티모달 입력을 낮은 지연 시간으로 처리하여 발화, 끄덕임, 웃음과 같은 언어적 및 비언어적 단서에 즉각적으로 반응할 수 있습니다. 더 나아가, 우리는 사용자 조건을 제거하여 구성된 합성 손실 샘플을 활용하는 직접 선호도 최적화 방법을 도입하여 레이블 없이도 표현력 있는 상호작용을 학습할 수 있도록 합니다. 실험 결과, 우리의 프레임워크는 낮은 지연 시간(약 500ms)으로 실시간 상호작용을 가능하게 하며 기준 모델 대비 6.8배의 속도 향상을 달성했고, 반응적이고 표현력 있는 아바타 모션을 생성하여 기준 모델 대비 80% 이상의 선호도를 얻었습니다.
English
Talking head generation creates lifelike avatars from static portraits for virtual communication and content creation. However, current models do not yet convey the feeling of truly interactive communication, often generating one-way responses that lack emotional engagement. We identify two key challenges toward truly interactive avatars: generating motion in real-time under causal constraints and learning expressive, vibrant reactions without additional labeled data. To address these challenges, we propose Avatar Forcing, a new framework for interactive head avatar generation that models real-time user-avatar interactions through diffusion forcing. This design allows the avatar to process real-time multimodal inputs, including the user's audio and motion, with low latency for instant reactions to both verbal and non-verbal cues such as speech, nods, and laughter. Furthermore, we introduce a direct preference optimization method that leverages synthetic losing samples constructed by dropping user conditions, enabling label-free learning of expressive interaction. Experimental results demonstrate that our framework enables real-time interaction with low latency (approximately 500ms), achieving 6.8X speedup compared to the baseline, and produces reactive and expressive avatar motion, which is preferred over 80% against the baseline.