ChatPaper.aiChatPaper

Lynx: Op weg naar hoogwaardige gepersonaliseerde videogeneratie

Lynx: Towards High-Fidelity Personalized Video Generation

September 19, 2025
Auteurs: Shen Sang, Tiancheng Zhi, Tianpei Gu, Jing Liu, Linjie Luo
cs.AI

Samenvatting

We presenteren Lynx, een hoogwaardig model voor gepersonaliseerde videosynthese vanuit een enkele invoerafbeelding. Gebouwd op een open-source Diffusion Transformer (DiT) basis model, introduceert Lynx twee lichtgewicht adapters om identiteitsgetrouwheid te waarborgen. De ID-adapter maakt gebruik van een Perceiver Resampler om ArcFace-afgeleide gezichtsembeddingen om te zetten in compacte identiteitstokens voor conditionering, terwijl de Ref-adapter dichte VAE-kenmerken integreert vanuit een bevroren referentiepad, waarbij fijnmazige details worden geïnjecteerd over alle transformerlagen via cross-attention. Deze modules zorgen gezamenlijk voor robuuste identiteitsbehoud terwijl temporele samenhang en visuele realiteit behouden blijven. Door evaluatie op een samengestelde benchmark van 40 proefpersonen en 20 onbevooroordeelde prompts, wat resulteerde in 800 testgevallen, heeft Lynx superieure gezichtsgelijkenis, competitieve promptvolging en sterke videokwaliteit aangetoond, waardoor de stand van gepersonaliseerde videogeneratie wordt bevorderd.
English
We present Lynx, a high-fidelity model for personalized video synthesis from a single input image. Built on an open-source Diffusion Transformer (DiT) foundation model, Lynx introduces two lightweight adapters to ensure identity fidelity. The ID-adapter employs a Perceiver Resampler to convert ArcFace-derived facial embeddings into compact identity tokens for conditioning, while the Ref-adapter integrates dense VAE features from a frozen reference pathway, injecting fine-grained details across all transformer layers through cross-attention. These modules collectively enable robust identity preservation while maintaining temporal coherence and visual realism. Through evaluation on a curated benchmark of 40 subjects and 20 unbiased prompts, which yielded 800 test cases, Lynx has demonstrated superior face resemblance, competitive prompt following, and strong video quality, thereby advancing the state of personalized video generation.
PDF124September 22, 2025