ChatPaper.aiChatPaper

Lynx: Verso la Generazione di Video Personalizzati ad Alta Fedeltà

Lynx: Towards High-Fidelity Personalized Video Generation

September 19, 2025
Autori: Shen Sang, Tiancheng Zhi, Tianpei Gu, Jing Liu, Linjie Luo
cs.AI

Abstract

Presentiamo Lynx, un modello ad alta fedeltà per la sintesi personalizzata di video a partire da una singola immagine di input. Basato su un modello fondazionale open-source di Diffusion Transformer (DiT), Lynx introduce due adattatori leggeri per garantire la fedeltà dell'identità. L'ID-adapter utilizza un Perceiver Resampler per convertire gli embedding facciali derivati da ArcFace in token di identità compatti per il condizionamento, mentre il Ref-adapter integra caratteristiche dense VAE da un percorso di riferimento congelato, iniettando dettagli fini in tutti i livelli del transformer attraverso l'attenzione incrociata. Questi moduli consentono collettivamente una robusta preservazione dell'identità, mantenendo al contempo coerenza temporale e realismo visivo. Attraverso la valutazione su un benchmark curato di 40 soggetti e 20 prompt imparziali, che hanno generato 800 casi di test, Lynx ha dimostrato una somiglianza facciale superiore, un'aderenza competitiva ai prompt e una forte qualità video, avanzando così lo stato dell'arte nella generazione personalizzata di video.
English
We present Lynx, a high-fidelity model for personalized video synthesis from a single input image. Built on an open-source Diffusion Transformer (DiT) foundation model, Lynx introduces two lightweight adapters to ensure identity fidelity. The ID-adapter employs a Perceiver Resampler to convert ArcFace-derived facial embeddings into compact identity tokens for conditioning, while the Ref-adapter integrates dense VAE features from a frozen reference pathway, injecting fine-grained details across all transformer layers through cross-attention. These modules collectively enable robust identity preservation while maintaining temporal coherence and visual realism. Through evaluation on a curated benchmark of 40 subjects and 20 unbiased prompts, which yielded 800 test cases, Lynx has demonstrated superior face resemblance, competitive prompt following, and strong video quality, thereby advancing the state of personalized video generation.
PDF124September 22, 2025