Аватары по требованию: Генерация головных аватаров в реальном времени для естественного общения
Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation
January 2, 2026
Авторы: Taekyung Ki, Sangwon Jang, Jaehyeong Jo, Jaehong Yoon, Sung Ju Hwang
cs.AI
Аннотация
Генерация говорящих голов создает реалистичные аватары из статичных портретов для виртуального общения и создания контента. Однако современные модели пока не передают ощущение подлинно интерактивной коммуникации, часто производя односторонние реакции, которым не хватает эмоциональной вовлеченности. Мы выделяем две ключевые проблемы на пути к truly интерактивным аватарам: генерация движений в реальном времени при каузальных ограничениях и обучение выразительным, живым реакциям без дополнительных размеченных данных. Для решения этих проблем мы предлагаем Avatar Forcing — новую архитектуру для интерактивной генерации аватаров головы, которая моделирует взаимодействия пользователя и аватара в реальном времени через диффузионное форсирование. Данная конструкция позволяет аватару обрабатывать мультимодальные входные данные в реальном времени, включая аудио и движения пользователя, с низкой задержкой для мгновенных реакций на вербальные и невербальные сигналы, такие как речь, кивки и смех. Кроме того, мы представляем метод прямой оптимизации предпочтений, использующий синтетические проигрышные примеры, сконструированные путем исключения пользовательских условий, что позволяет осуществлять обучение выразительному взаимодействию без размеченных данных. Результаты экспериментов показывают, что наша архитектура обеспечивает интерактивность в реальном времени с низкой задержкой (приблизительно 500 мс), достигая 6.8-кратного ускорения по сравнению с базовым методом, и производит реактивные и выразительные движения аватара, которые предпочли более 80% испытуемых по сравнению с базовым методом.
English
Talking head generation creates lifelike avatars from static portraits for virtual communication and content creation. However, current models do not yet convey the feeling of truly interactive communication, often generating one-way responses that lack emotional engagement. We identify two key challenges toward truly interactive avatars: generating motion in real-time under causal constraints and learning expressive, vibrant reactions without additional labeled data. To address these challenges, we propose Avatar Forcing, a new framework for interactive head avatar generation that models real-time user-avatar interactions through diffusion forcing. This design allows the avatar to process real-time multimodal inputs, including the user's audio and motion, with low latency for instant reactions to both verbal and non-verbal cues such as speech, nods, and laughter. Furthermore, we introduce a direct preference optimization method that leverages synthetic losing samples constructed by dropping user conditions, enabling label-free learning of expressive interaction. Experimental results demonstrate that our framework enables real-time interaction with low latency (approximately 500ms), achieving 6.8X speedup compared to the baseline, and produces reactive and expressive avatar motion, which is preferred over 80% against the baseline.