Lynx : Vers une génération de vidéos personnalisées de haute fidélité
Lynx: Towards High-Fidelity Personalized Video Generation
September 19, 2025
papers.authors: Shen Sang, Tiancheng Zhi, Tianpei Gu, Jing Liu, Linjie Luo
cs.AI
papers.abstract
Nous présentons Lynx, un modèle haute fidélité pour la synthèse vidéo personnalisée à partir d'une seule image d'entrée. Basé sur un modèle de fondation open-source de type Diffusion Transformer (DiT), Lynx introduit deux adaptateurs légers pour garantir la fidélité de l'identité. L'ID-adaptateur utilise un Perceiver Resampler pour convertir les embeddings faciaux dérivés d'ArcFace en tokens d'identité compacts pour le conditionnement, tandis que le Ref-adaptateur intègre des caractéristiques denses issues d'un VAE via une voie de référence figée, injectant des détails fins à travers toutes les couches du transformateur par attention croisée. Ces modules permettent collectivement une préservation robuste de l'identité tout en maintenant la cohérence temporelle et le réalisme visuel. Grâce à une évaluation sur un benchmark soigneusement sélectionné de 40 sujets et 20 prompts impartiaux, générant 800 cas de test, Lynx a démontré une ressemblance faciale supérieure, un suivi compétitif des prompts et une qualité vidéo élevée, faisant ainsi progresser l'état de l'art en génération vidéo personnalisée.
English
We present Lynx, a high-fidelity model for personalized video synthesis from
a single input image. Built on an open-source Diffusion Transformer (DiT)
foundation model, Lynx introduces two lightweight adapters to ensure identity
fidelity. The ID-adapter employs a Perceiver Resampler to convert
ArcFace-derived facial embeddings into compact identity tokens for
conditioning, while the Ref-adapter integrates dense VAE features from a frozen
reference pathway, injecting fine-grained details across all transformer layers
through cross-attention. These modules collectively enable robust identity
preservation while maintaining temporal coherence and visual realism. Through
evaluation on a curated benchmark of 40 subjects and 20 unbiased prompts, which
yielded 800 test cases, Lynx has demonstrated superior face resemblance,
competitive prompt following, and strong video quality, thereby advancing the
state of personalized video generation.