FaithfulFaces: Posetreue Bewahrung der Gesichtsidentität für die Text-zu-Video-Generierung

Zusammenfassung

Identitätsbewahrende Text-zu-Video-Generierung (IPT2V) ermöglicht es Nutzern, vielfältige und kreative Videos mit konsistenter menschlicher Gesichtsidentität zu erstellen. Trotz jüngster Fortschritte leiden bestehende Methoden oft unter erheblichen Identitätsverzerrungen bei großen Gesichtsposevariationen oder Gesichtsüberdeckungen. In diesem Beitrag schlagen wir FaithfulFaces vor, ein posentreues Lernframework zur Gesichtsidentitätsbewahrung, das die IPT2V in komplexen dynamischen Szenen verbessert. Der Kern von FaithfulFaces ist ein posengeteilter Identitätsausrichter, der Gesichtsposen über verschiedene Ansichten hinweg mittels eines posengeteilten Wörterbuchs und einer Posenvariation-Identitätsinvarianzbedingung verfeinert und ausrichtet. Durch die Abbildung von Einzelansichtseingaben auf eine globale Gesichtsposendarstellung mit expliziten Euler-Winkel-Einbettungen liefert FaithfulFaces einen posentreuen Gesichts-Prior, der generative Grundlagen hin zu robuster identitätsbewahrender Generierung führt. Insbesondere entwickeln wir eine spezialisierte Pipeline zur Zusammenstellung eines hochwertigen Videodatensatzes mit erheblicher Gesichtspose-Vielfalt. Umfangreiche Experimente zeigen, dass FaithfulFaces dem neuesten Stand der Technik entspricht und selbst bei auftretenden Posenänderungen und Überdeckungen überlegene Identitätskonsistenz und strukturelle Klarheit bewahrt.

English

Identity-preserving text-to-video generation (IPT2V) empowers users to produce diverse and imaginative videos with consistent human facial identity. Despite recent progress, existing methods often suffer from significant identity distortion under large facial pose variations or facial occlusions. In this paper, we propose FaithfulFaces, a pose-faithful facial identity preservation learning framework to improve IPT2V in complex dynamic scenes. The key of FaithfulFaces is a pose-shared identity aligner that refines and aligns facial poses across distinct views via a pose-shared dictionary and a pose variation-identity invariance constraint. By mapping single-view inputs into a global facial pose representation with explicit Euler angle embeddings, FaithfulFaces provides a pose-faithful facial prior that guides generative foundations toward robust identity-preserving generation. In particular, we develop a specialized pipeline to curate a high-quality video dataset featuring substantial facial pose diversity. Extensive experiments demonstrate that FaithfulFaces achieves state-of-the-art performance, maintaining superior identity consistency and structural clarity even as pose changes and occlusions occur.

FaithfulFaces: Posetreue Bewahrung der Gesichtsidentität für die Text-zu-Video-Generierung

FaithfulFaces: Pose-Faithful Facial Identity Preservation for Text-to-Video Generation

Zusammenfassung

Support