ChatPaper.aiChatPaper

Lynx: Rumo à Geração de Vídeos Personalizados de Alta Fidelidade

Lynx: Towards High-Fidelity Personalized Video Generation

September 19, 2025
Autores: Shen Sang, Tiancheng Zhi, Tianpei Gu, Jing Liu, Linjie Luo
cs.AI

Resumo

Apresentamos o Lynx, um modelo de alta fidelidade para síntese de vídeo personalizado a partir de uma única imagem de entrada. Construído sobre um modelo base de Transformador de Difusão (DiT) de código aberto, o Lynx introduz dois adaptadores leves para garantir a fidelidade da identidade. O ID-adapter utiliza um Perceiver Resampler para converter embeddings faciais derivados do ArcFace em tokens de identidade compactos para condicionamento, enquanto o Ref-adapter integra recursos densos de VAE de um caminho de referência congelado, injetando detalhes refinados em todas as camadas do transformador por meio de atenção cruzada. Esses módulos, em conjunto, permitem uma preservação robusta da identidade, mantendo a coerência temporal e o realismo visual. Por meio da avaliação em um benchmark curado de 40 sujeitos e 20 prompts imparciais, que resultaram em 800 casos de teste, o Lynx demonstrou superior semelhança facial, seguimento competitivo de prompts e forte qualidade de vídeo, avançando assim o estado da arte na geração de vídeos personalizados.
English
We present Lynx, a high-fidelity model for personalized video synthesis from a single input image. Built on an open-source Diffusion Transformer (DiT) foundation model, Lynx introduces two lightweight adapters to ensure identity fidelity. The ID-adapter employs a Perceiver Resampler to convert ArcFace-derived facial embeddings into compact identity tokens for conditioning, while the Ref-adapter integrates dense VAE features from a frozen reference pathway, injecting fine-grained details across all transformer layers through cross-attention. These modules collectively enable robust identity preservation while maintaining temporal coherence and visual realism. Through evaluation on a curated benchmark of 40 subjects and 20 unbiased prompts, which yielded 800 test cases, Lynx has demonstrated superior face resemblance, competitive prompt following, and strong video quality, thereby advancing the state of personalized video generation.
PDF124September 22, 2025