Loopy: Укрощение портретного аватара, управляемого аудио с долгосрочной зависимостью движенияLoopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion
Dependency
С появлением техник генерации видео на основе диффузии, аудио-условная генерация видео с участием людей недавно достигла значительных прорывов как в натуральности движения, так и в синтезе деталей портрета. Из-за ограниченного контроля над аудиосигналами в управлении движением человека существующие методы часто добавляют вспомогательные пространственные сигналы для стабилизации движений, что может негативно сказываться на натуральности и свободе движения. В данной статье мы предлагаем модель диффузии видео, условную только аудио, от начала до конца, названную Loopy. Конкретно, мы разработали модуль времени внутри и между клипами и модуль аудио-к латентам, позволяющие модели использовать информацию о долгосрочных движениях из данных для изучения естественных шаблонов движения и улучшения корреляции движения аудио-портрета. Этот метод устраняет необходимость вручную задавать пространственные шаблоны движения, используемые в существующих методах, для ограничения движения во время вывода. Обширные эксперименты показывают, что Loopy превосходит недавние модели диффузии портретов, управляемые аудио, обеспечивая более реалистичные и качественные результаты в различных сценариях.