Génération de Vidéo à partir de Texte Préservant l'Identité par Décomposition Fréquentielle
Identity-Preserving Text-to-Video Generation by Frequency Decomposition
November 26, 2024
Auteurs: Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan
cs.AI
Résumé
La génération de vidéos textuelles à vidéo (IPT2V) préservant l'identité vise à créer des vidéos haute fidélité avec une identité humaine cohérente. Il s'agit d'une tâche importante en génération de vidéos mais reste un problème ouvert pour les modèles génératifs. Cet article repousse la frontière technique de l'IPT2V dans deux directions qui n'ont pas été résolues dans la littérature : (1) un pipeline sans réglage fastidieux sans réglage cas par cas, et (2) un schéma de contrôle heuristique préservant l'identité basé sur DiT et conscient de la fréquence. Nous proposons ConsisID, un modèle IPT2V contrôlable basé sur DiT sans réglage pour maintenir l'identité humaine cohérente dans la vidéo générée. Inspiré par des découvertes antérieures dans l'analyse de fréquence des transformateurs de diffusion, il utilise des signaux de contrôle d'identité dans le domaine de fréquence, où les traits du visage peuvent être décomposés en traits globaux à basse fréquence et en traits intrinsèques à haute fréquence. Premièrement, d'un point de vue basse fréquence, nous introduisons un extracteur facial global, qui code les images de référence et les points clés du visage dans un espace latent, générant des traits enrichis en informations à basse fréquence. Ces traits sont ensuite intégrés dans les couches superficielles du réseau pour atténuer les défis d'entraînement associés à DiT. Deuxièmement, d'un point de vue haute fréquence, nous concevons un extracteur facial local pour capturer les détails à haute fréquence et les injecter dans les blocs transformateurs, améliorant la capacité du modèle à préserver les caractéristiques détaillées. Nous proposons une stratégie d'entraînement hiérarchique pour exploiter les informations de fréquence pour la préservation de l'identité, transformant un modèle de génération de vidéos pré-entraîné de base en un modèle IPT2V. Des expériences approfondies démontrent que notre schéma heuristique conscient de la fréquence fournit une solution de contrôle optimale pour les modèles basés sur DiT. Grâce à ce schéma, notre ConsisID génère des vidéos de haute qualité préservant l'identité, faisant des avancées vers un IPT2V plus efficace.
English
Identity-preserving text-to-video (IPT2V) generation aims to create
high-fidelity videos with consistent human identity. It is an important task in
video generation but remains an open problem for generative models. This paper
pushes the technical frontier of IPT2V in two directions that have not been
resolved in literature: (1) A tuning-free pipeline without tedious case-by-case
finetuning, and (2) A frequency-aware heuristic identity-preserving DiT-based
control scheme. We propose ConsisID, a tuning-free DiT-based controllable IPT2V
model to keep human identity consistent in the generated video. Inspired by
prior findings in frequency analysis of diffusion transformers, it employs
identity-control signals in the frequency domain, where facial features can be
decomposed into low-frequency global features and high-frequency intrinsic
features. First, from a low-frequency perspective, we introduce a global facial
extractor, which encodes reference images and facial key points into a latent
space, generating features enriched with low-frequency information. These
features are then integrated into shallow layers of the network to alleviate
training challenges associated with DiT. Second, from a high-frequency
perspective, we design a local facial extractor to capture high-frequency
details and inject them into transformer blocks, enhancing the model's ability
to preserve fine-grained features. We propose a hierarchical training strategy
to leverage frequency information for identity preservation, transforming a
vanilla pre-trained video generation model into an IPT2V model. Extensive
experiments demonstrate that our frequency-aware heuristic scheme provides an
optimal control solution for DiT-based models. Thanks to this scheme, our
ConsisID generates high-quality, identity-preserving videos, making strides
towards more effective IPT2V.Summary
AI-Generated Summary