Génération de Vidéo à partir de Texte Préservant l'Identité par Décomposition Fréquentielle

papers.abstract

La génération de vidéos textuelles à vidéo (IPT2V) préservant l'identité vise à créer des vidéos haute fidélité avec une identité humaine cohérente. Il s'agit d'une tâche importante en génération de vidéos mais reste un problème ouvert pour les modèles génératifs. Cet article repousse la frontière technique de l'IPT2V dans deux directions qui n'ont pas été résolues dans la littérature : (1) un pipeline sans réglage fastidieux sans réglage cas par cas, et (2) un schéma de contrôle heuristique préservant l'identité basé sur DiT et conscient de la fréquence. Nous proposons ConsisID, un modèle IPT2V contrôlable basé sur DiT sans réglage pour maintenir l'identité humaine cohérente dans la vidéo générée. Inspiré par des découvertes antérieures dans l'analyse de fréquence des transformateurs de diffusion, il utilise des signaux de contrôle d'identité dans le domaine de fréquence, où les traits du visage peuvent être décomposés en traits globaux à basse fréquence et en traits intrinsèques à haute fréquence. Premièrement, d'un point de vue basse fréquence, nous introduisons un extracteur facial global, qui code les images de référence et les points clés du visage dans un espace latent, générant des traits enrichis en informations à basse fréquence. Ces traits sont ensuite intégrés dans les couches superficielles du réseau pour atténuer les défis d'entraînement associés à DiT. Deuxièmement, d'un point de vue haute fréquence, nous concevons un extracteur facial local pour capturer les détails à haute fréquence et les injecter dans les blocs transformateurs, améliorant la capacité du modèle à préserver les caractéristiques détaillées. Nous proposons une stratégie d'entraînement hiérarchique pour exploiter les informations de fréquence pour la préservation de l'identité, transformant un modèle de génération de vidéos pré-entraîné de base en un modèle IPT2V. Des expériences approfondies démontrent que notre schéma heuristique conscient de la fréquence fournit une solution de contrôle optimale pour les modèles basés sur DiT. Grâce à ce schéma, notre ConsisID génère des vidéos de haute qualité préservant l'identité, faisant des avancées vers un IPT2V plus efficace.

English

Identity-preserving text-to-video (IPT2V) generation aims to create high-fidelity videos with consistent human identity. It is an important task in video generation but remains an open problem for generative models. This paper pushes the technical frontier of IPT2V in two directions that have not been resolved in literature: (1) A tuning-free pipeline without tedious case-by-case finetuning, and (2) A frequency-aware heuristic identity-preserving DiT-based control scheme. We propose ConsisID, a tuning-free DiT-based controllable IPT2V model to keep human identity consistent in the generated video. Inspired by prior findings in frequency analysis of diffusion transformers, it employs identity-control signals in the frequency domain, where facial features can be decomposed into low-frequency global features and high-frequency intrinsic features. First, from a low-frequency perspective, we introduce a global facial extractor, which encodes reference images and facial key points into a latent space, generating features enriched with low-frequency information. These features are then integrated into shallow layers of the network to alleviate training challenges associated with DiT. Second, from a high-frequency perspective, we design a local facial extractor to capture high-frequency details and inject them into transformer blocks, enhancing the model's ability to preserve fine-grained features. We propose a hierarchical training strategy to leverage frequency information for identity preservation, transforming a vanilla pre-trained video generation model into an IPT2V model. Extensive experiments demonstrate that our frequency-aware heuristic scheme provides an optimal control solution for DiT-based models. Thanks to this scheme, our ConsisID generates high-quality, identity-preserving videos, making strides towards more effective IPT2V.

Génération de Vidéo à partir de Texte Préservant l'Identité par Décomposition Fréquentielle

Identity-Preserving Text-to-Video Generation by Frequency Decomposition

papers.abstract

Support