Loopy: Die Bändigung eines Audio-gesteuerten Porträt-Avatars mit langfristiger BewegungsabhängigkeitLoopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion
Dependency
Mit der Einführung von diffusionsbasierten Videogenerierungstechniken hat die audio-konditionierte menschliche Videogenerierung kürzlich bedeutende Durchbrüche sowohl in der Natürlichkeit der Bewegung als auch in der Synthese von Porträt-Details erzielt. Aufgrund der begrenzten Steuerung von Audio-Signalen bei der Steuerung menschlicher Bewegungen fügen bestehende Methoden oft zusätzliche räumliche Signale hinzu, um Bewegungen zu stabilisieren, was die Natürlichkeit und Freiheit der Bewegung beeinträchtigen kann. In diesem Paper schlagen wir ein End-to-End-Audio-Only-konditioniertes Videodiffusionsmodell namens Loopy vor. Speziell haben wir ein inter- und intra-Clip-Zeitmodul und ein Audio-zu-Latenzmodul entworfen, die es dem Modell ermöglichen, langfristige Bewegungsinformationen aus den Daten zu nutzen, um natürliche Bewegungsmuster zu erlernen und die Korrelation zwischen Audio-Porträt-Bewegung zu verbessern. Diese Methode beseitigt die Notwendigkeit für manuell spezifizierte räumliche Bewegungsvorlagen, die in bestehenden Methoden verwendet werden, um Bewegungen während der Inferenz zu beschränken. Umfangreiche Experimente zeigen, dass Loopy aktuelle audiogetriebene Porträt-Diffusionsmodelle übertrifft und in verschiedenen Szenarien realistischere und qualitativ hochwertigere Ergebnisse liefert.