Loopy: Het Temmen van Audio-Gestuurde Portret Avatars met Langetermijn BewegingsafhankelijkheidLoopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion
Dependency
Met de introductie van diffusiegebaseerde videogeneratietechnieken heeft audio-gestuurde menselijke videogeneratie recentelijk aanzienlijke doorbraken bereikt in zowel de natuurlijkheid van beweging als de synthese van portretdetails. Vanwege de beperkte controle van audiosignalen bij het aansturen van menselijke bewegingen, voegen bestaande methoden vaak aanvullende ruimtelijke signalen toe om bewegingen te stabiliseren, wat de natuurlijkheid en vrijheid van beweging kan aantasten. In dit artikel stellen we een end-to-end audio-gestuurd videodiffusiemodel genaamd Loopy voor. Specifiek hebben we een inter- en intra-clip temporele module en een audio-naar-latents module ontworpen, waardoor het model langetermijnbewegingsinformatie uit de data kan benutten om natuurlijke bewegingspatronen te leren en de correlatie tussen audio en portretbeweging te verbeteren. Deze methode elimineert de noodzaak van handmatig gespecificeerde ruimtelijke bewegingssjablonen die in bestaande methoden worden gebruikt om beweging tijdens inferentie te beperken. Uitgebreide experimenten tonen aan dat Loopy recente audio-gestuurde portretdiffusiemodellen overtreft en meer levensechte en hoogwaardige resultaten levert in diverse scenario's.