Durian: Animación de Retratos Guiada por Doble Referencia con Transferencia de Atributos
Durian: Dual Reference-guided Portrait Animation with Attribute Transfer
September 4, 2025
Autores: Hyunsoo Cha, Byungjun Kim, Hanbyul Joo
cs.AI
Resumen
Presentamos Durian, el primer método para generar videos de animación de retratos con transferencia de atributos faciales desde una imagen de referencia dada a un retrato objetivo de manera zero-shot. Para permitir una transferencia de atributos de alta fidelidad y espacialmente consistente entre fotogramas, introducimos redes de referencia dual que inyectan características espaciales tanto de la imagen del retrato como de la imagen de atributos en el proceso de eliminación de ruido de un modelo de difusión. Entrenamos el modelo utilizando una formulación de auto-reconstrucción, donde se muestrean dos fotogramas del mismo video de retrato: uno se trata como la referencia de atributos y el otro como el retrato objetivo, y los fotogramas restantes se reconstruyen condicionados a estas entradas y sus máscaras correspondientes. Para apoyar la transferencia de atributos con extensión espacial variable, proponemos una estrategia de expansión de máscaras utilizando generación de imágenes condicionada por puntos clave para el entrenamiento. Además, aumentamos las imágenes de atributos y retratos con transformaciones a nivel espacial y de apariencia para mejorar la robustez frente a desalineaciones posicionales entre ellas. Estas estrategias permiten que el modelo generalice efectivamente a través de diversos atributos y combinaciones de referencias en entornos naturales, a pesar de ser entrenado sin supervisión explícita de tripletas. Durian logra un rendimiento de vanguardia en animación de retratos con transferencia de atributos, y, notablemente, su diseño de referencia dual permite la composición de múltiples atributos en una sola pasada de generación sin entrenamiento adicional.
English
We present Durian, the first method for generating portrait animation videos
with facial attribute transfer from a given reference image to a target
portrait in a zero-shot manner. To enable high-fidelity and spatially
consistent attribute transfer across frames, we introduce dual reference
networks that inject spatial features from both the portrait and attribute
images into the denoising process of a diffusion model. We train the model
using a self-reconstruction formulation, where two frames are sampled from the
same portrait video: one is treated as the attribute reference and the other as
the target portrait, and the remaining frames are reconstructed conditioned on
these inputs and their corresponding masks. To support the transfer of
attributes with varying spatial extent, we propose a mask expansion strategy
using keypoint-conditioned image generation for training. In addition, we
further augment the attribute and portrait images with spatial and
appearance-level transformations to improve robustness to positional
misalignment between them. These strategies allow the model to effectively
generalize across diverse attributes and in-the-wild reference combinations,
despite being trained without explicit triplet supervision. Durian achieves
state-of-the-art performance on portrait animation with attribute transfer, and
notably, its dual reference design enables multi-attribute composition in a
single generation pass without additional training.