FaithfulFaces: Позо-верное сохранение идентичности лица для генерации видео по тексту

Аннотация

Генерация видео из текста с сохранением идентичности (IPT2V) позволяет пользователям создавать разнообразные и изобретательные видео, сохраняя согласованную идентичность человеческого лица. Несмотря на недавние успехи, существующие методы часто страдают от значительных искажений идентичности при больших изменениях позы лица или при его частичных перекрытиях. В данной статье мы предлагаем FaithfulFaces — обучающую среду для сохранения идентичности лица, устойчивую к изменениям позы, которая улучшает IPT2V в сложных динамических сценах. Ключевым элементом FaithfulFaces является выравниватель идентичности с общей позой, который уточняет и согласовывает позы лица в различных ракурсах с помощью словаря общих поз и ограничения инвариантности идентичности к изменению позы. Отображая входные данные с одного ракурса в глобальное представление позы лица с явными вложениями углов Эйлера, FaithfulFaces обеспечивает верный позе априорный шаблон лица, направляющий генеративные основы на надежную генерацию с сохранением идентичности. В частности, мы разработали специализированный конвейер для создания высококачественного набора видеоданных, отличающегося значительным разнообразием поз лица. Обширные эксперименты демонстрируют, что FaithfulFaces достигает современного уровня производительности, сохраняя превосходную согласованность идентичности и четкость структуры даже при изменениях позы и наличии перекрытий.

English

Identity-preserving text-to-video generation (IPT2V) empowers users to produce diverse and imaginative videos with consistent human facial identity. Despite recent progress, existing methods often suffer from significant identity distortion under large facial pose variations or facial occlusions. In this paper, we propose FaithfulFaces, a pose-faithful facial identity preservation learning framework to improve IPT2V in complex dynamic scenes. The key of FaithfulFaces is a pose-shared identity aligner that refines and aligns facial poses across distinct views via a pose-shared dictionary and a pose variation-identity invariance constraint. By mapping single-view inputs into a global facial pose representation with explicit Euler angle embeddings, FaithfulFaces provides a pose-faithful facial prior that guides generative foundations toward robust identity-preserving generation. In particular, we develop a specialized pipeline to curate a high-quality video dataset featuring substantial facial pose diversity. Extensive experiments demonstrate that FaithfulFaces achieves state-of-the-art performance, maintaining superior identity consistency and structural clarity even as pose changes and occlusions occur.

FaithfulFaces: Позо-верное сохранение идентичности лица для генерации видео по тексту

FaithfulFaces: Pose-Faithful Facial Identity Preservation for Text-to-Video Generation

Аннотация

Support