FantasyTalking: 일관된 모션 합성을 통한 사실적 초상화 대화 생성
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis
April 7, 2025
저자: Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu
cs.AI
초록
단일 정적 초상화로부터 사실적이고 애니메이션 가능한 아바타를 생성하는 것은 여전히 어려운 과제입니다. 기존 접근법들은 미세한 표정 변화, 관련된 전신 동작, 그리고 동적인 배경을 포착하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 사전 훈련된 비디오 확산 트랜스포머 모델을 활용하여 고화질이고 일관된 말하는 초상화를 생성하며, 동적 움직임을 제어할 수 있는 새로운 프레임워크를 제안합니다. 우리 작업의 핵심은 이중 단계의 오디오-비주얼 정렬 전략입니다. 첫 번째 단계에서는 클립 수준의 훈련 방식을 사용하여 참조 초상화, 주변 객체, 배경을 포함한 전체 장면에서 오디오 기반 동역학을 정렬함으로써 일관된 전역적 움직임을 확립합니다. 두 번째 단계에서는 입술 추적 마스크를 사용하여 프레임 수준에서 입술 움직임을 세밀하게 조정하여 오디오 신호와의 정확한 동기화를 보장합니다. 움직임 유연성을 저해하지 않으면서도 신원을 보존하기 위해, 일반적으로 사용되는 참조 네트워크를 얼굴 중심의 교차 주의 모듈로 대체하여 비디오 전반에 걸쳐 얼굴 일관성을 효과적으로 유지합니다. 또한, 우리는 표현 및 신체 움직임 강도를 명시적으로 제어하는 모션 강도 조절 모듈을 통합하여 단순한 입술 움직임을 넘어 초상화 움직임의 제어 가능한 조작을 가능하게 합니다. 광범위한 실험 결과는 우리가 제안한 접근법이 더 높은 품질과 더 나은 사실감, 일관성, 모션 강도, 신원 보존을 달성함을 보여줍니다. 우리의 프로젝트 페이지: https://fantasy-amap.github.io/fantasy-talking/.
English
Creating a realistic animatable avatar from a single static portrait remains
challenging. Existing approaches often struggle to capture subtle facial
expressions, the associated global body movements, and the dynamic background.
To address these limitations, we propose a novel framework that leverages a
pretrained video diffusion transformer model to generate high-fidelity,
coherent talking portraits with controllable motion dynamics. At the core of
our work is a dual-stage audio-visual alignment strategy. In the first stage,
we employ a clip-level training scheme to establish coherent global motion by
aligning audio-driven dynamics across the entire scene, including the reference
portrait, contextual objects, and background. In the second stage, we refine
lip movements at the frame level using a lip-tracing mask, ensuring precise
synchronization with audio signals. To preserve identity without compromising
motion flexibility, we replace the commonly used reference network with a
facial-focused cross-attention module that effectively maintains facial
consistency throughout the video. Furthermore, we integrate a motion intensity
modulation module that explicitly controls expression and body motion
intensity, enabling controllable manipulation of portrait movements beyond mere
lip motion. Extensive experimental results show that our proposed approach
achieves higher quality with better realism, coherence, motion intensity, and
identity preservation. Ours project page:
https://fantasy-amap.github.io/fantasy-talking/.Summary
AI-Generated Summary