Durian: Двойное управляемое эталоном анимирование портретов с переносом атрибутов
Durian: Dual Reference-guided Portrait Animation with Attribute Transfer
September 4, 2025
Авторы: Hyunsoo Cha, Byungjun Kim, Hanbyul Joo
cs.AI
Аннотация
Мы представляем Durian — первый метод генерации анимационных портретных видео с переносом лицевых атрибутов из заданного эталонного изображения на целевой портрет в режиме zero-shot. Для обеспечения высококачественного и пространственно согласованного переноса атрибутов между кадрами мы вводим двойные эталонные сети, которые внедряют пространственные признаки как из портретного, так и из атрибутного изображений в процесс денойзинга диффузионной модели. Мы обучаем модель с использованием формулировки самовосстановления, где два кадра выбираются из одного портретного видео: один используется как эталон атрибутов, а другой — как целевой портрет, а оставшиеся кадры восстанавливаются на основе этих входных данных и соответствующих масок. Для поддержки переноса атрибутов с различной пространственной протяженностью мы предлагаем стратегию расширения масок с использованием генерации изображений, обусловленной ключевыми точками, для обучения. Кроме того, мы дополнительно улучшаем атрибутные и портретные изображения с помощью пространственных и визуальных преобразований, чтобы повысить устойчивость к позиционному несоответствию между ними. Эти стратегии позволяют модели эффективно обобщать разнообразные атрибуты и комбинации эталонных изображений в реальных условиях, несмотря на обучение без явного тройного контроля. Durian демонстрирует передовые результаты в области анимации портретов с переносом атрибутов, а его двойная эталонная конструкция позволяет выполнять композицию нескольких атрибутов за один проход генерации без дополнительного обучения.
English
We present Durian, the first method for generating portrait animation videos
with facial attribute transfer from a given reference image to a target
portrait in a zero-shot manner. To enable high-fidelity and spatially
consistent attribute transfer across frames, we introduce dual reference
networks that inject spatial features from both the portrait and attribute
images into the denoising process of a diffusion model. We train the model
using a self-reconstruction formulation, where two frames are sampled from the
same portrait video: one is treated as the attribute reference and the other as
the target portrait, and the remaining frames are reconstructed conditioned on
these inputs and their corresponding masks. To support the transfer of
attributes with varying spatial extent, we propose a mask expansion strategy
using keypoint-conditioned image generation for training. In addition, we
further augment the attribute and portrait images with spatial and
appearance-level transformations to improve robustness to positional
misalignment between them. These strategies allow the model to effectively
generalize across diverse attributes and in-the-wild reference combinations,
despite being trained without explicit triplet supervision. Durian achieves
state-of-the-art performance on portrait animation with attribute transfer, and
notably, its dual reference design enables multi-attribute composition in a
single generation pass without additional training.