Durian: Dual referenzgesteuerte Porträtanimation mit Attributübertragung
Durian: Dual Reference-guided Portrait Animation with Attribute Transfer
September 4, 2025
papers.authors: Hyunsoo Cha, Byungjun Kim, Hanbyul Joo
cs.AI
papers.abstract
Wir präsentieren Durian, die erste Methode zur Erzeugung von Porträtanimationsvideos mit Gesichtsattributtransfer von einem gegebenen Referenzbild zu einem Zielporträt in einem Zero-Shot-Verfahren. Um einen hochauflösenden und räumlich konsistenten Attributtransfer über die Frames hinweg zu ermöglichen, führen wir duale Referenznetzwerke ein, die räumliche Merkmale sowohl aus dem Porträt- als auch aus dem Attributbild in den Denoising-Prozess eines Diffusionsmodells injizieren. Wir trainieren das Modell mit einer Selbstrekonstruktionsformulierung, bei der zwei Frames aus demselben Porträtvideo entnommen werden: einer wird als Attributreferenz und der andere als Zielporträt behandelt, während die verbleibenden Frames basierend auf diesen Eingaben und ihren entsprechenden Masken rekonstruiert werden. Um den Transfer von Attributen mit unterschiedlicher räumlicher Ausdehnung zu unterstützen, schlagen wir eine Maskenerweiterungsstrategie vor, die eine keypoint-bedingte Bildgenerierung für das Training verwendet. Zusätzlich erweitern wir die Attribut- und Porträtbilder mit räumlichen und erscheinungsbasierten Transformationen, um die Robustheit gegenüber Positionsfehlausrichtungen zwischen ihnen zu verbessern. Diese Strategien ermöglichen es dem Modell, effektiv über diverse Attribute und In-the-Wild-Referenzkombinationen zu generalisieren, obwohl es ohne explizite Tripletten-Supervision trainiert wurde. Durian erreicht state-of-the-art Leistung bei der Porträtanimation mit Attributtransfer, und bemerkenswerterweise ermöglicht sein duales Referenzdesign die Komposition mehrerer Attribute in einem einzigen Generierungsschritt ohne zusätzliches Training.
English
We present Durian, the first method for generating portrait animation videos
with facial attribute transfer from a given reference image to a target
portrait in a zero-shot manner. To enable high-fidelity and spatially
consistent attribute transfer across frames, we introduce dual reference
networks that inject spatial features from both the portrait and attribute
images into the denoising process of a diffusion model. We train the model
using a self-reconstruction formulation, where two frames are sampled from the
same portrait video: one is treated as the attribute reference and the other as
the target portrait, and the remaining frames are reconstructed conditioned on
these inputs and their corresponding masks. To support the transfer of
attributes with varying spatial extent, we propose a mask expansion strategy
using keypoint-conditioned image generation for training. In addition, we
further augment the attribute and portrait images with spatial and
appearance-level transformations to improve robustness to positional
misalignment between them. These strategies allow the model to effectively
generalize across diverse attributes and in-the-wild reference combinations,
despite being trained without explicit triplet supervision. Durian achieves
state-of-the-art performance on portrait animation with attribute transfer, and
notably, its dual reference design enables multi-attribute composition in a
single generation pass without additional training.