Durian: Dual Referentie-gestuurde Portretanimatie met Attribuutoverdracht
Durian: Dual Reference-guided Portrait Animation with Attribute Transfer
September 4, 2025
Auteurs: Hyunsoo Cha, Byungjun Kim, Hanbyul Joo
cs.AI
Samenvatting
We presenteren Durian, de eerste methode voor het genereren van portretanimatievideo's met overdracht van gezichtskenmerken vanuit een referentiebeeld naar een doelportret op een zero-shot-manier. Om hoogwaardige en ruimtelijk consistente kenmerkoverdracht tussen frames mogelijk te maken, introduceren we duale referentienetwerken die ruimtelijke kenmerken van zowel het portret- als het kenmerkbeeld injecteren in het denoisingsproces van een diffusiemodel. We trainen het model met een zelfreconstructieformulering, waarbij twee frames uit dezelfde portretvideo worden gesamplet: één wordt behandeld als het kenmerkreferentiebeeld en de andere als het doelportret, en de overige frames worden gereconstrueerd op basis van deze invoer en hun bijbehorende maskers. Om de overdracht van kenmerken met variërende ruimtelijke omvang te ondersteunen, stellen we een maskeruitbreidingsstrategie voor die gebruikmaakt van keypoint-geconditioneerde beeldgeneratie voor training. Daarnaast versterken we de kenmerk- en portretbeelden verder met ruimtelijke en uiterlijkstransformaties om de robuustheid tegen positionele uitlijning tussen hen te verbeteren. Deze strategieën stellen het model in staat om effectief te generaliseren over diverse kenmerken en in-the-wild referentiecombinaties, ondanks dat het getraind is zonder expliciete triplet-supervisie. Durian behaalt state-of-the-art prestaties op het gebied van portretanimatie met kenmerkoverdracht, en opmerkelijk genoeg maakt het duale referentieontwerp multi-kenmerksamenstelling mogelijk in een enkele generatiestap zonder aanvullende training.
English
We present Durian, the first method for generating portrait animation videos
with facial attribute transfer from a given reference image to a target
portrait in a zero-shot manner. To enable high-fidelity and spatially
consistent attribute transfer across frames, we introduce dual reference
networks that inject spatial features from both the portrait and attribute
images into the denoising process of a diffusion model. We train the model
using a self-reconstruction formulation, where two frames are sampled from the
same portrait video: one is treated as the attribute reference and the other as
the target portrait, and the remaining frames are reconstructed conditioned on
these inputs and their corresponding masks. To support the transfer of
attributes with varying spatial extent, we propose a mask expansion strategy
using keypoint-conditioned image generation for training. In addition, we
further augment the attribute and portrait images with spatial and
appearance-level transformations to improve robustness to positional
misalignment between them. These strategies allow the model to effectively
generalize across diverse attributes and in-the-wild reference combinations,
despite being trained without explicit triplet supervision. Durian achieves
state-of-the-art performance on portrait animation with attribute transfer, and
notably, its dual reference design enables multi-attribute composition in a
single generation pass without additional training.