ChatPaper.aiChatPaper

Lynx : Vers une génération de vidéos personnalisées de haute fidélité

Lynx: Towards High-Fidelity Personalized Video Generation

September 19, 2025
papers.authors: Shen Sang, Tiancheng Zhi, Tianpei Gu, Jing Liu, Linjie Luo
cs.AI

papers.abstract

Nous présentons Lynx, un modèle haute fidélité pour la synthèse vidéo personnalisée à partir d'une seule image d'entrée. Basé sur un modèle de fondation open-source de type Diffusion Transformer (DiT), Lynx introduit deux adaptateurs légers pour garantir la fidélité de l'identité. L'ID-adaptateur utilise un Perceiver Resampler pour convertir les embeddings faciaux dérivés d'ArcFace en tokens d'identité compacts pour le conditionnement, tandis que le Ref-adaptateur intègre des caractéristiques denses issues d'un VAE via une voie de référence figée, injectant des détails fins à travers toutes les couches du transformateur par attention croisée. Ces modules permettent collectivement une préservation robuste de l'identité tout en maintenant la cohérence temporelle et le réalisme visuel. Grâce à une évaluation sur un benchmark soigneusement sélectionné de 40 sujets et 20 prompts impartiaux, générant 800 cas de test, Lynx a démontré une ressemblance faciale supérieure, un suivi compétitif des prompts et une qualité vidéo élevée, faisant ainsi progresser l'état de l'art en génération vidéo personnalisée.
English
We present Lynx, a high-fidelity model for personalized video synthesis from a single input image. Built on an open-source Diffusion Transformer (DiT) foundation model, Lynx introduces two lightweight adapters to ensure identity fidelity. The ID-adapter employs a Perceiver Resampler to convert ArcFace-derived facial embeddings into compact identity tokens for conditioning, while the Ref-adapter integrates dense VAE features from a frozen reference pathway, injecting fine-grained details across all transformer layers through cross-attention. These modules collectively enable robust identity preservation while maintaining temporal coherence and visual realism. Through evaluation on a curated benchmark of 40 subjects and 20 unbiased prompts, which yielded 800 test cases, Lynx has demonstrated superior face resemblance, competitive prompt following, and strong video quality, thereby advancing the state of personalized video generation.
PDF124September 22, 2025