Durian: Animación de Retratos Guiada por Doble Referencia con Transferencia de Atributos

Resumen

Presentamos Durian, el primer método para generar videos de animación de retratos con transferencia de atributos faciales desde una imagen de referencia dada a un retrato objetivo de manera zero-shot. Para permitir una transferencia de atributos de alta fidelidad y espacialmente consistente entre fotogramas, introducimos redes de referencia dual que inyectan características espaciales tanto de la imagen del retrato como de la imagen de atributos en el proceso de eliminación de ruido de un modelo de difusión. Entrenamos el modelo utilizando una formulación de auto-reconstrucción, donde se muestrean dos fotogramas del mismo video de retrato: uno se trata como la referencia de atributos y el otro como el retrato objetivo, y los fotogramas restantes se reconstruyen condicionados a estas entradas y sus máscaras correspondientes. Para apoyar la transferencia de atributos con extensión espacial variable, proponemos una estrategia de expansión de máscaras utilizando generación de imágenes condicionada por puntos clave para el entrenamiento. Además, aumentamos las imágenes de atributos y retratos con transformaciones a nivel espacial y de apariencia para mejorar la robustez frente a desalineaciones posicionales entre ellas. Estas estrategias permiten que el modelo generalice efectivamente a través de diversos atributos y combinaciones de referencias en entornos naturales, a pesar de ser entrenado sin supervisión explícita de tripletas. Durian logra un rendimiento de vanguardia en animación de retratos con transferencia de atributos, y, notablemente, su diseño de referencia dual permite la composición de múltiples atributos en una sola pasada de generación sin entrenamiento adicional.

English

We present Durian, the first method for generating portrait animation videos with facial attribute transfer from a given reference image to a target portrait in a zero-shot manner. To enable high-fidelity and spatially consistent attribute transfer across frames, we introduce dual reference networks that inject spatial features from both the portrait and attribute images into the denoising process of a diffusion model. We train the model using a self-reconstruction formulation, where two frames are sampled from the same portrait video: one is treated as the attribute reference and the other as the target portrait, and the remaining frames are reconstructed conditioned on these inputs and their corresponding masks. To support the transfer of attributes with varying spatial extent, we propose a mask expansion strategy using keypoint-conditioned image generation for training. In addition, we further augment the attribute and portrait images with spatial and appearance-level transformations to improve robustness to positional misalignment between them. These strategies allow the model to effectively generalize across diverse attributes and in-the-wild reference combinations, despite being trained without explicit triplet supervision. Durian achieves state-of-the-art performance on portrait animation with attribute transfer, and notably, its dual reference design enables multi-attribute composition in a single generation pass without additional training.

Durian: Animación de Retratos Guiada por Doble Referencia con Transferencia de Atributos

Durian: Dual Reference-guided Portrait Animation with Attribute Transfer

Resumen

Support