Lynx: Hacia la Generación de Videos Personalizados de Alta Fidelidad
Lynx: Towards High-Fidelity Personalized Video Generation
September 19, 2025
Autores: Shen Sang, Tiancheng Zhi, Tianpei Gu, Jing Liu, Linjie Luo
cs.AI
Resumen
Presentamos Lynx, un modelo de alta fidelidad para la síntesis de videos personalizados a partir de una única imagen de entrada. Construido sobre un modelo base de Transformador de Difusión (DiT) de código abierto, Lynx introduce dos adaptadores ligeros para garantizar la fidelidad de la identidad. El ID-adaptador emplea un Perceiver Resampler para convertir las incrustaciones faciales derivadas de ArcFace en tokens de identidad compactos para el condicionamiento, mientras que el Ref-adaptador integra características densas de VAE de una ruta de referencia congelada, inyectando detalles de grano fino en todas las capas del transformador mediante atención cruzada. Estos módulos permiten colectivamente una preservación robusta de la identidad mientras mantienen la coherencia temporal y el realismo visual. A través de la evaluación en un conjunto de referencia curado de 40 sujetos y 20 indicaciones imparciales, que generaron 800 casos de prueba, Lynx ha demostrado una superior semejanza facial, un seguimiento competitivo de las indicaciones y una fuerte calidad de video, avanzando así el estado del arte en la generación de videos personalizados.
English
We present Lynx, a high-fidelity model for personalized video synthesis from
a single input image. Built on an open-source Diffusion Transformer (DiT)
foundation model, Lynx introduces two lightweight adapters to ensure identity
fidelity. The ID-adapter employs a Perceiver Resampler to convert
ArcFace-derived facial embeddings into compact identity tokens for
conditioning, while the Ref-adapter integrates dense VAE features from a frozen
reference pathway, injecting fine-grained details across all transformer layers
through cross-attention. These modules collectively enable robust identity
preservation while maintaining temporal coherence and visual realism. Through
evaluation on a curated benchmark of 40 subjects and 20 unbiased prompts, which
yielded 800 test cases, Lynx has demonstrated superior face resemblance,
competitive prompt following, and strong video quality, thereby advancing the
state of personalized video generation.