FantasyPortrait: 표현 강화 확산 트랜스포머를 활용한 다중 캐릭터 초상화 애니메이션 개선
FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers
July 17, 2025
저자: Qiang Wang, Mengchao Wang, Fan Jiang, Yaqi Fan, Yonggang Qi, Mu Xu
cs.AI
초록
정적 이미지에서 표현력이 풍부한 얼굴 애니메이션을 생성하는 것은 어려운 과제입니다. 기존의 명시적인 기하학적 사전 정보(예: 얼굴 랜드마크 또는 3DMM)에 의존하는 방법들은 크로스 리엔액트먼트에서 아티팩트가 발생하거나 미묘한 감정을 포착하는 데 어려움을 겪는 경우가 많습니다. 더욱이, 기존 접근법들은 다중 캐릭터 애니메이션을 지원하지 못하며, 서로 다른 개인에서 추출한 드라이빙 특성들이 간섭을 일으켜 작업을 복잡하게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 단일 및 다중 캐릭터 시나리오 모두에서 고화질이고 감정이 풍부한 애니메이션을 생성할 수 있는 디퓨전 트랜스포머 기반 프레임워크인 FantasyPortrait를 제안합니다. 우리의 방법은 암묵적 표현을 활용하여 아이덴티티에 구애받지 않는 얼굴 동역학을 포착하는 표현 증강 학습 전략을 도입함으로써, 모델이 세밀한 감정을 렌더링하는 능력을 향상시킵니다. 다중 캐릭터 제어를 위해, 우리는 마스크된 크로스-어텐션 메커니즘을 설계하여 독립적이면서도 조화로운 표현 생성을 보장하고, 특성 간섭을 효과적으로 방지합니다. 이 분야의 연구를 발전시키기 위해, 우리는 다중 캐릭터 초상화 애니메이션을 훈련하고 평가하기 위해 특별히 설계된 Multi-Expr 데이터셋과 ExprBench 벤치마크를 제안합니다. 광범위한 실험을 통해 FantasyPortrait가 양적 지표와 질적 평가 모두에서 최신 기술을 크게 능가하며, 특히 도전적인 크로스 리엔액트먼트와 다중 캐릭터 상황에서 우수한 성능을 보임을 입증했습니다. 우리의 프로젝트 페이지는 https://fantasy-amap.github.io/fantasy-portrait/입니다.
English
Producing expressive facial animations from static images is a challenging
task. Prior methods relying on explicit geometric priors (e.g., facial
landmarks or 3DMM) often suffer from artifacts in cross reenactment and
struggle to capture subtle emotions. Furthermore, existing approaches lack
support for multi-character animation, as driving features from different
individuals frequently interfere with one another, complicating the task. To
address these challenges, we propose FantasyPortrait, a diffusion transformer
based framework capable of generating high-fidelity and emotion-rich animations
for both single- and multi-character scenarios. Our method introduces an
expression-augmented learning strategy that utilizes implicit representations
to capture identity-agnostic facial dynamics, enhancing the model's ability to
render fine-grained emotions. For multi-character control, we design a masked
cross-attention mechanism that ensures independent yet coordinated expression
generation, effectively preventing feature interference. To advance research in
this area, we propose the Multi-Expr dataset and ExprBench, which are
specifically designed datasets and benchmarks for training and evaluating
multi-character portrait animations. Extensive experiments demonstrate that
FantasyPortrait significantly outperforms state-of-the-art methods in both
quantitative metrics and qualitative evaluations, excelling particularly in
challenging cross reenactment and multi-character contexts. Our project page is
https://fantasy-amap.github.io/fantasy-portrait/.