ChatPaper.aiChatPaper

SCHWIMMEN: Generatives Bewegungs-Latenzfluss-Matching für Audio-gesteuerte sprechende Porträts

FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

December 2, 2024
Autoren: Taekyung Ki, Dongchan Min, Gyoungsu Chae
cs.AI

Zusammenfassung

Mit dem raschen Fortschritt von diffusionsbasierten generativen Modellen hat die Animation von Porträtbildern bemerkenswerte Ergebnisse erzielt. Dennoch steht sie immer noch vor Herausforderungen bei der zeitlich konsistenten Videogenerierung und schnellen Probenahme aufgrund ihrer iterativen Probenahme-Natur. Dieses Papier stellt FLOAT vor, eine audiogetriebene Methode zur Generierung von sprechenden Porträtvideos, die auf einem Flussabgleich-gesteuerten generativen Modell basiert. Wir verlagern das generative Modellieren vom pixelbasierten latenten Raum zu einem erlernten Bewegungs-Latenzraum, was eine effiziente Gestaltung von zeitlich konsistenter Bewegung ermöglicht. Um dies zu erreichen, führen wir einen auf Transformer basierenden Vektorfeld-Vorhersager mit einem einfachen, aber effektiven rahmenweisen Konditionierungsmechanismus ein. Darüber hinaus unterstützt unsere Methode die emotionale Verbesserung durch sprachgesteuerte Bewegung, was eine natürliche Integration von ausdrucksstarken Bewegungen ermöglicht. Umfangreiche Experimente zeigen, dass unsere Methode in Bezug auf visuelle Qualität, Bewegungstreue und Effizienz die audiogetriebenen sprechenden Porträtmethoden auf dem neuesten Stand der Technik übertrifft.
English
With the rapid advancement of diffusion-based generative models, portrait image animation has achieved remarkable results. However, it still faces challenges in temporally consistent video generation and fast sampling due to its iterative sampling nature. This paper presents FLOAT, an audio-driven talking portrait video generation method based on flow matching generative model. We shift the generative modeling from the pixel-based latent space to a learned motion latent space, enabling efficient design of temporally consistent motion. To achieve this, we introduce a transformer-based vector field predictor with a simple yet effective frame-wise conditioning mechanism. Additionally, our method supports speech-driven emotion enhancement, enabling a natural incorporation of expressive motions. Extensive experiments demonstrate that our method outperforms state-of-the-art audio-driven talking portrait methods in terms of visual quality, motion fidelity, and efficiency.

Summary

AI-Generated Summary

PDF308December 3, 2024