Durian: Animação de Retratos com Dupla Referência e Transferência de Atributos

Resumo

Apresentamos o Durian, o primeiro método para gerar vídeos de animação de retratos com transferência de atributos faciais a partir de uma imagem de referência para um retrato alvo de maneira zero-shot. Para permitir uma transferência de atributos de alta fidelidade e espacialmente consistente entre os quadros, introduzimos redes de referência dupla que injetam características espaciais tanto da imagem do retrato quanto da imagem de atributos no processo de denoising de um modelo de difusão. Treinamos o modelo usando uma formulação de autorreconstrução, na qual dois quadros são amostrados do mesmo vídeo de retrato: um é tratado como referência de atributo e o outro como retrato alvo, e os quadros restantes são reconstruídos condicionados a essas entradas e suas máscaras correspondentes. Para suportar a transferência de atributos com extensão espacial variável, propomos uma estratégia de expansão de máscara usando geração de imagem condicionada por pontos-chave para o treinamento. Além disso, aumentamos ainda mais as imagens de atributos e retratos com transformações espaciais e de nível de aparência para melhorar a robustez ao desalinhamento posicional entre elas. Essas estratégias permitem que o modelo generalize efetivamente em diversos atributos e combinações de referência em cenários reais, apesar de ser treinado sem supervisão explícita de triplas. O Durian alcança desempenho de ponta em animação de retratos com transferência de atributos e, notavelmente, seu design de referência dupla permite a composição de múltiplos atributos em uma única passagem de geração sem treinamento adicional.

English

We present Durian, the first method for generating portrait animation videos with facial attribute transfer from a given reference image to a target portrait in a zero-shot manner. To enable high-fidelity and spatially consistent attribute transfer across frames, we introduce dual reference networks that inject spatial features from both the portrait and attribute images into the denoising process of a diffusion model. We train the model using a self-reconstruction formulation, where two frames are sampled from the same portrait video: one is treated as the attribute reference and the other as the target portrait, and the remaining frames are reconstructed conditioned on these inputs and their corresponding masks. To support the transfer of attributes with varying spatial extent, we propose a mask expansion strategy using keypoint-conditioned image generation for training. In addition, we further augment the attribute and portrait images with spatial and appearance-level transformations to improve robustness to positional misalignment between them. These strategies allow the model to effectively generalize across diverse attributes and in-the-wild reference combinations, despite being trained without explicit triplet supervision. Durian achieves state-of-the-art performance on portrait animation with attribute transfer, and notably, its dual reference design enables multi-attribute composition in a single generation pass without additional training.

Durian: Animação de Retratos com Dupla Referência e Transferência de Atributos

Durian: Dual Reference-guided Portrait Animation with Attribute Transfer

Resumo

Support