ChatPaper.aiChatPaper

Durian: Animazione Ritrattistica a Doppia Riferimento con Trasferimento di Attributi

Durian: Dual Reference-guided Portrait Animation with Attribute Transfer

September 4, 2025
Autori: Hyunsoo Cha, Byungjun Kim, Hanbyul Joo
cs.AI

Abstract

Presentiamo Durian, il primo metodo per generare video di animazione ritrattistica con trasferimento di attributi facciali da un'immagine di riferimento a un ritratto target in modalità zero-shot. Per abilitare un trasferimento di attributi ad alta fedeltà e spazialmente coerente tra i fotogrammi, introduciamo reti di riferimento duali che iniettano caratteristiche spaziali sia dall'immagine del ritratto che da quella degli attributi nel processo di denoising di un modello di diffusione. Addestriamo il modello utilizzando una formulazione di auto-ricostruzione, in cui due fotogrammi vengono campionati dallo stesso video ritrattistico: uno viene trattato come riferimento per gli attributi e l'altro come ritratto target, mentre i fotogrammi rimanenti vengono ricostruiti condizionati su questi input e sulle relative maschere. Per supportare il trasferimento di attributi con estensione spaziale variabile, proponiamo una strategia di espansione delle maschere utilizzando la generazione di immagini condizionata da punti chiave per l'addestramento. Inoltre, aumentiamo ulteriormente le immagini degli attributi e del ritratto con trasformazioni a livello spaziale e di aspetto per migliorare la robustezza al disallineamento posizionale tra di esse. Queste strategie consentono al modello di generalizzare efficacemente su attributi diversi e combinazioni di riferimento in contesti reali, nonostante sia stato addestrato senza una supervisione esplicita a triplette. Durian raggiunge prestazioni all'avanguardia nell'animazione ritrattistica con trasferimento di attributi e, in particolare, il suo design a riferimento duale consente la composizione di multi-attributi in un'unica passata di generazione senza ulteriore addestramento.
English
We present Durian, the first method for generating portrait animation videos with facial attribute transfer from a given reference image to a target portrait in a zero-shot manner. To enable high-fidelity and spatially consistent attribute transfer across frames, we introduce dual reference networks that inject spatial features from both the portrait and attribute images into the denoising process of a diffusion model. We train the model using a self-reconstruction formulation, where two frames are sampled from the same portrait video: one is treated as the attribute reference and the other as the target portrait, and the remaining frames are reconstructed conditioned on these inputs and their corresponding masks. To support the transfer of attributes with varying spatial extent, we propose a mask expansion strategy using keypoint-conditioned image generation for training. In addition, we further augment the attribute and portrait images with spatial and appearance-level transformations to improve robustness to positional misalignment between them. These strategies allow the model to effectively generalize across diverse attributes and in-the-wild reference combinations, despite being trained without explicit triplet supervision. Durian achieves state-of-the-art performance on portrait animation with attribute transfer, and notably, its dual reference design enables multi-attribute composition in a single generation pass without additional training.
PDF102September 5, 2025