Durian: 속성 전환을 지원하는 이중 참조 기반 초상화 애니메이션
Durian: Dual Reference-guided Portrait Animation with Attribute Transfer
September 4, 2025
저자: Hyunsoo Cha, Byungjun Kim, Hanbyul Joo
cs.AI
초록
우리는 주어진 참조 이미지에서 대상 초상화로 얼굴 속성 전이를 제로샷 방식으로 수행하여 초상화 애니메이션 비디오를 생성하는 최초의 방법인 Durian을 소개합니다. 프레임 간에 고품질이고 공간적으로 일관된 속성 전이를 가능하게 하기 위해, 우리는 초상화와 속성 이미지 모두에서 공간적 특징을 디퓨전 모델의 노이즈 제거 과정에 주입하는 이중 참조 네트워크를 도입했습니다. 모델은 자기 재구성 방식을 사용하여 학습되며, 동일한 초상화 비디오에서 두 프레임을 샘플링합니다: 하나는 속성 참조로, 다른 하나는 대상 초상화로 처리되며, 나머지 프레임은 이러한 입력과 해당 마스크를 조건으로 재구성됩니다. 다양한 공간 범위의 속성 전이를 지원하기 위해, 우리는 키포인트 조건 이미지 생성을 사용한 마스크 확장 전략을 제안합니다. 또한, 속성과 초상화 이미지에 공간적 및 외관 수준의 변형을 추가하여 둘 간의 위치 불일치에 대한 견고성을 향상시킵니다. 이러한 전략들은 명시적인 삼중항 감독 없이 학습되었음에도 불구하고, 모델이 다양한 속성과 실제 참조 조합에 효과적으로 일반화할 수 있도록 합니다. Durian은 속성 전이를 통한 초상화 애니메이션에서 최첨단 성능을 달성하며, 특히 이중 참조 설계는 추가 학습 없이 단일 생성 과정에서 다중 속성 구성을 가능하게 합니다.
English
We present Durian, the first method for generating portrait animation videos
with facial attribute transfer from a given reference image to a target
portrait in a zero-shot manner. To enable high-fidelity and spatially
consistent attribute transfer across frames, we introduce dual reference
networks that inject spatial features from both the portrait and attribute
images into the denoising process of a diffusion model. We train the model
using a self-reconstruction formulation, where two frames are sampled from the
same portrait video: one is treated as the attribute reference and the other as
the target portrait, and the remaining frames are reconstructed conditioned on
these inputs and their corresponding masks. To support the transfer of
attributes with varying spatial extent, we propose a mask expansion strategy
using keypoint-conditioned image generation for training. In addition, we
further augment the attribute and portrait images with spatial and
appearance-level transformations to improve robustness to positional
misalignment between them. These strategies allow the model to effectively
generalize across diverse attributes and in-the-wild reference combinations,
despite being trained without explicit triplet supervision. Durian achieves
state-of-the-art performance on portrait animation with attribute transfer, and
notably, its dual reference design enables multi-attribute composition in a
single generation pass without additional training.