Loopy: Het Temmen van Audio-Gestuurde Portret Avatars met Langetermijn Bewegingsafhankelijkheid
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency
September 4, 2024
Auteurs: Jianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng
cs.AI
Samenvatting
Met de introductie van diffusiegebaseerde videogeneratietechnieken heeft audio-gestuurde menselijke videogeneratie recentelijk aanzienlijke doorbraken bereikt in zowel de natuurlijkheid van beweging als de synthese van portretdetails. Vanwege de beperkte controle van audiosignalen bij het aansturen van menselijke bewegingen, voegen bestaande methoden vaak aanvullende ruimtelijke signalen toe om bewegingen te stabiliseren, wat de natuurlijkheid en vrijheid van beweging kan aantasten. In dit artikel stellen we een end-to-end audio-gestuurd videodiffusiemodel genaamd Loopy voor. Specifiek hebben we een inter- en intra-clip temporele module en een audio-naar-latents module ontworpen, waardoor het model langetermijnbewegingsinformatie uit de data kan benutten om natuurlijke bewegingspatronen te leren en de correlatie tussen audio en portretbeweging te verbeteren. Deze methode elimineert de noodzaak van handmatig gespecificeerde ruimtelijke bewegingssjablonen die in bestaande methoden worden gebruikt om beweging tijdens inferentie te beperken. Uitgebreide experimenten tonen aan dat Loopy recente audio-gestuurde portretdiffusiemodellen overtreft en meer levensechte en hoogwaardige resultaten levert in diverse scenario's.
English
With the introduction of diffusion-based video generation techniques,
audio-conditioned human video generation has recently achieved significant
breakthroughs in both the naturalness of motion and the synthesis of portrait
details. Due to the limited control of audio signals in driving human motion,
existing methods often add auxiliary spatial signals to stabilize movements,
which may compromise the naturalness and freedom of motion. In this paper, we
propose an end-to-end audio-only conditioned video diffusion model named Loopy.
Specifically, we designed an inter- and intra-clip temporal module and an
audio-to-latents module, enabling the model to leverage long-term motion
information from the data to learn natural motion patterns and improving
audio-portrait movement correlation. This method removes the need for manually
specified spatial motion templates used in existing methods to constrain motion
during inference. Extensive experiments show that Loopy outperforms recent
audio-driven portrait diffusion models, delivering more lifelike and
high-quality results across various scenarios.Summary
AI-Generated Summary