FaithfulFaces: Preservación de la identidad facial con fidelidad de pose para generación de texto a vídeo

Resumen

La generación de video a partir de texto con preservación de identidad (IPT2V) permite a los usuarios producir videos diversos e imaginativos que mantienen una identidad facial humana consistente. A pesar de los avances recientes, los métodos existentes a menudo sufren de una distorsión significativa de la identidad bajo grandes variaciones de pose facial o cuando hay oclusiones faciales. En este artículo proponemos FaithfulFaces, un marco de aprendizaje para la preservación de la identidad facial fiel a la pose, que mejora la IPT2V en escenas dinámicas complejas. La clave de FaithfulFaces es un alineador de identidad compartido por poses que refina y alinea las poses faciales entre diferentes vistas mediante un diccionario compartido de poses y una restricción de invariancia entre variación de pose e identidad. Al mapear entradas de una sola vista a una representación global de pose facial con codificaciones explícitas de ángulos de Euler, FaithfulFaces proporciona un prior facial fiel a la pose que guía a las bases generativas hacia una generación robusta que preserva la identidad. En particular, desarrollamos un pipeline especializado para curar un conjunto de datos de video de alta calidad que presenta una diversidad sustancial de poses faciales. Experimentos exhaustivos demuestran que FaithfulFaces alcanza un rendimiento de vanguardia, manteniendo una consistencia de identidad superior y una claridad estructural incluso cuando ocurren cambios de pose y oclusiones.

English

Identity-preserving text-to-video generation (IPT2V) empowers users to produce diverse and imaginative videos with consistent human facial identity. Despite recent progress, existing methods often suffer from significant identity distortion under large facial pose variations or facial occlusions. In this paper, we propose FaithfulFaces, a pose-faithful facial identity preservation learning framework to improve IPT2V in complex dynamic scenes. The key of FaithfulFaces is a pose-shared identity aligner that refines and aligns facial poses across distinct views via a pose-shared dictionary and a pose variation-identity invariance constraint. By mapping single-view inputs into a global facial pose representation with explicit Euler angle embeddings, FaithfulFaces provides a pose-faithful facial prior that guides generative foundations toward robust identity-preserving generation. In particular, we develop a specialized pipeline to curate a high-quality video dataset featuring substantial facial pose diversity. Extensive experiments demonstrate that FaithfulFaces achieves state-of-the-art performance, maintaining superior identity consistency and structural clarity even as pose changes and occlusions occur.

FaithfulFaces: Preservación de la identidad facial con fidelidad de pose para generación de texto a vídeo

FaithfulFaces: Pose-Faithful Facial Identity Preservation for Text-to-Video Generation

Resumen

Support