Lynx: Rumo à Geração de Vídeos Personalizados de Alta Fidelidade
Lynx: Towards High-Fidelity Personalized Video Generation
September 19, 2025
Autores: Shen Sang, Tiancheng Zhi, Tianpei Gu, Jing Liu, Linjie Luo
cs.AI
Resumo
Apresentamos o Lynx, um modelo de alta fidelidade para síntese de vídeo personalizado a partir de uma única imagem de entrada. Construído sobre um modelo base de Transformador de Difusão (DiT) de código aberto, o Lynx introduz dois adaptadores leves para garantir a fidelidade da identidade. O ID-adapter utiliza um Perceiver Resampler para converter embeddings faciais derivados do ArcFace em tokens de identidade compactos para condicionamento, enquanto o Ref-adapter integra recursos densos de VAE de um caminho de referência congelado, injetando detalhes refinados em todas as camadas do transformador por meio de atenção cruzada. Esses módulos, em conjunto, permitem uma preservação robusta da identidade, mantendo a coerência temporal e o realismo visual. Por meio da avaliação em um benchmark curado de 40 sujeitos e 20 prompts imparciais, que resultaram em 800 casos de teste, o Lynx demonstrou superior semelhança facial, seguimento competitivo de prompts e forte qualidade de vídeo, avançando assim o estado da arte na geração de vídeos personalizados.
English
We present Lynx, a high-fidelity model for personalized video synthesis from
a single input image. Built on an open-source Diffusion Transformer (DiT)
foundation model, Lynx introduces two lightweight adapters to ensure identity
fidelity. The ID-adapter employs a Perceiver Resampler to convert
ArcFace-derived facial embeddings into compact identity tokens for
conditioning, while the Ref-adapter integrates dense VAE features from a frozen
reference pathway, injecting fine-grained details across all transformer layers
through cross-attention. These modules collectively enable robust identity
preservation while maintaining temporal coherence and visual realism. Through
evaluation on a curated benchmark of 40 subjects and 20 unbiased prompts, which
yielded 800 test cases, Lynx has demonstrated superior face resemblance,
competitive prompt following, and strong video quality, thereby advancing the
state of personalized video generation.