SCHWIMMEN: Generatives Bewegungs-Latenzfluss-Matching für Audio-gesteuerte sprechende Porträts
FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait
December 2, 2024
Autoren: Taekyung Ki, Dongchan Min, Gyoungsu Chae
cs.AI
Zusammenfassung
Mit dem raschen Fortschritt von diffusionsbasierten generativen Modellen hat die Animation von Porträtbildern bemerkenswerte Ergebnisse erzielt. Dennoch steht sie immer noch vor Herausforderungen bei der zeitlich konsistenten Videogenerierung und schnellen Probenahme aufgrund ihrer iterativen Probenahme-Natur. Dieses Papier stellt FLOAT vor, eine audiogetriebene Methode zur Generierung von sprechenden Porträtvideos, die auf einem Flussabgleich-gesteuerten generativen Modell basiert. Wir verlagern das generative Modellieren vom pixelbasierten latenten Raum zu einem erlernten Bewegungs-Latenzraum, was eine effiziente Gestaltung von zeitlich konsistenter Bewegung ermöglicht. Um dies zu erreichen, führen wir einen auf Transformer basierenden Vektorfeld-Vorhersager mit einem einfachen, aber effektiven rahmenweisen Konditionierungsmechanismus ein. Darüber hinaus unterstützt unsere Methode die emotionale Verbesserung durch sprachgesteuerte Bewegung, was eine natürliche Integration von ausdrucksstarken Bewegungen ermöglicht. Umfangreiche Experimente zeigen, dass unsere Methode in Bezug auf visuelle Qualität, Bewegungstreue und Effizienz die audiogetriebenen sprechenden Porträtmethoden auf dem neuesten Stand der Technik übertrifft.
English
With the rapid advancement of diffusion-based generative models, portrait
image animation has achieved remarkable results. However, it still faces
challenges in temporally consistent video generation and fast sampling due to
its iterative sampling nature. This paper presents FLOAT, an audio-driven
talking portrait video generation method based on flow matching generative
model. We shift the generative modeling from the pixel-based latent space to a
learned motion latent space, enabling efficient design of temporally consistent
motion. To achieve this, we introduce a transformer-based vector field
predictor with a simple yet effective frame-wise conditioning mechanism.
Additionally, our method supports speech-driven emotion enhancement, enabling a
natural incorporation of expressive motions. Extensive experiments demonstrate
that our method outperforms state-of-the-art audio-driven talking portrait
methods in terms of visual quality, motion fidelity, and efficiency.Summary
AI-Generated Summary