ChatPaper.aiChatPaper

Durian : Animation de portrait à double référence guidée avec transfert d'attributs

Durian: Dual Reference-guided Portrait Animation with Attribute Transfer

September 4, 2025
papers.authors: Hyunsoo Cha, Byungjun Kim, Hanbyul Joo
cs.AI

papers.abstract

Nous présentons Durian, la première méthode permettant de générer des vidéos d'animation de portraits avec transfert d'attributs faciaux à partir d'une image de référence donnée vers un portrait cible, de manière zero-shot. Pour permettre un transfert d'attributs de haute fidélité et spatialement cohérent entre les images, nous introduisons des réseaux de référence duals qui injectent des caractéristiques spatiales issues à la fois du portrait et des images d'attributs dans le processus de débruitage d'un modèle de diffusion. Nous entraînons le modèle en utilisant une formulation d'auto-reconstruction, où deux images sont extraites d'une même vidéo de portrait : l'une est traitée comme référence d'attribut et l'autre comme portrait cible, et les images restantes sont reconstruites en fonction de ces entrées et de leurs masques correspondants. Pour faciliter le transfert d'attributs de différentes étendues spatiales, nous proposons une stratégie d'expansion de masque utilisant la génération d'images conditionnée par des points clés pour l'entraînement. De plus, nous enrichissons les images d'attributs et de portraits avec des transformations spatiales et au niveau de l'apparence pour améliorer la robustesse aux désalignements de position entre elles. Ces stratégies permettent au modèle de généraliser efficacement à travers divers attributs et combinaisons de références en conditions réelles, bien qu'il soit entraîné sans supervision explicite par triplets. Durian atteint des performances de pointe en animation de portraits avec transfert d'attributs, et, de manière notable, sa conception à référence duale permet la composition multi-attributs en une seule passe de génération sans entraînement supplémentaire.
English
We present Durian, the first method for generating portrait animation videos with facial attribute transfer from a given reference image to a target portrait in a zero-shot manner. To enable high-fidelity and spatially consistent attribute transfer across frames, we introduce dual reference networks that inject spatial features from both the portrait and attribute images into the denoising process of a diffusion model. We train the model using a self-reconstruction formulation, where two frames are sampled from the same portrait video: one is treated as the attribute reference and the other as the target portrait, and the remaining frames are reconstructed conditioned on these inputs and their corresponding masks. To support the transfer of attributes with varying spatial extent, we propose a mask expansion strategy using keypoint-conditioned image generation for training. In addition, we further augment the attribute and portrait images with spatial and appearance-level transformations to improve robustness to positional misalignment between them. These strategies allow the model to effectively generalize across diverse attributes and in-the-wild reference combinations, despite being trained without explicit triplet supervision. Durian achieves state-of-the-art performance on portrait animation with attribute transfer, and notably, its dual reference design enables multi-attribute composition in a single generation pass without additional training.
PDF31September 5, 2025