Loopy: Укрощение портретного аватара, управляемого аудио с долгосрочной зависимостью движения
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency
September 4, 2024
Авторы: Jianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng
cs.AI
Аннотация
С появлением техник генерации видео на основе диффузии, аудио-условная генерация видео с участием людей недавно достигла значительных прорывов как в натуральности движения, так и в синтезе деталей портрета. Из-за ограниченного контроля над аудиосигналами в управлении движением человека существующие методы часто добавляют вспомогательные пространственные сигналы для стабилизации движений, что может негативно сказываться на натуральности и свободе движения. В данной статье мы предлагаем модель диффузии видео, условную только аудио, от начала до конца, названную Loopy. Конкретно, мы разработали модуль времени внутри и между клипами и модуль аудио-к латентам, позволяющие модели использовать информацию о долгосрочных движениях из данных для изучения естественных шаблонов движения и улучшения корреляции движения аудио-портрета. Этот метод устраняет необходимость вручную задавать пространственные шаблоны движения, используемые в существующих методах, для ограничения движения во время вывода. Обширные эксперименты показывают, что Loopy превосходит недавние модели диффузии портретов, управляемые аудио, обеспечивая более реалистичные и качественные результаты в различных сценариях.
English
With the introduction of diffusion-based video generation techniques,
audio-conditioned human video generation has recently achieved significant
breakthroughs in both the naturalness of motion and the synthesis of portrait
details. Due to the limited control of audio signals in driving human motion,
existing methods often add auxiliary spatial signals to stabilize movements,
which may compromise the naturalness and freedom of motion. In this paper, we
propose an end-to-end audio-only conditioned video diffusion model named Loopy.
Specifically, we designed an inter- and intra-clip temporal module and an
audio-to-latents module, enabling the model to leverage long-term motion
information from the data to learn natural motion patterns and improving
audio-portrait movement correlation. This method removes the need for manually
specified spatial motion templates used in existing methods to constrain motion
during inference. Extensive experiments show that Loopy outperforms recent
audio-driven portrait diffusion models, delivering more lifelike and
high-quality results across various scenarios.Summary
AI-Generated Summary