FantasyTalking: Генерация реалистичных говорящих портретов через синтез согласованных движений
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis
April 7, 2025
Авторы: Mengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu
cs.AI
Аннотация
Создание реалистичного анимируемого аватара из одного статичного портрета остается сложной задачей. Существующие подходы часто не могут точно передать тонкие выражения лица, связанные с ними глобальные движения тела и динамичный фон. Чтобы устранить эти ограничения, мы предлагаем новую структуру, которая использует предварительно обученную модель видео-диффузионного трансформера для генерации высококачественных, согласованных говорящих портретов с контролируемой динамикой движений. В основе нашей работы лежит двухэтапная стратегия аудиовизуального согласования. На первом этапе мы применяем схему обучения на уровне клипов для установления согласованных глобальных движений путем выравнивания аудио-управляемой динамики по всей сцене, включая референсный портрет, контекстные объекты и фон. На втором этапе мы уточняем движения губ на уровне кадров с использованием маски трассировки губ, обеспечивая точную синхронизацию с аудиосигналами. Для сохранения идентичности без ущерба для гибкости движений мы заменяем обычно используемую референсную сеть на модуль кросс-внимания, сфокусированный на лице, который эффективно поддерживает согласованность лица на протяжении всего видео. Кроме того, мы интегрируем модуль модуляции интенсивности движений, который явно контролирует интенсивность выражений и движений тела, позволяя управлять движениями портрета за пределами простого движения губ. Обширные экспериментальные результаты показывают, что наш подход достигает более высокого качества с лучшей реалистичностью, согласованностью, интенсивностью движений и сохранением идентичности. Наша страница проекта: https://fantasy-amap.github.io/fantasy-talking/.
English
Creating a realistic animatable avatar from a single static portrait remains
challenging. Existing approaches often struggle to capture subtle facial
expressions, the associated global body movements, and the dynamic background.
To address these limitations, we propose a novel framework that leverages a
pretrained video diffusion transformer model to generate high-fidelity,
coherent talking portraits with controllable motion dynamics. At the core of
our work is a dual-stage audio-visual alignment strategy. In the first stage,
we employ a clip-level training scheme to establish coherent global motion by
aligning audio-driven dynamics across the entire scene, including the reference
portrait, contextual objects, and background. In the second stage, we refine
lip movements at the frame level using a lip-tracing mask, ensuring precise
synchronization with audio signals. To preserve identity without compromising
motion flexibility, we replace the commonly used reference network with a
facial-focused cross-attention module that effectively maintains facial
consistency throughout the video. Furthermore, we integrate a motion intensity
modulation module that explicitly controls expression and body motion
intensity, enabling controllable manipulation of portrait movements beyond mere
lip motion. Extensive experimental results show that our proposed approach
achieves higher quality with better realism, coherence, motion intensity, and
identity preservation. Ours project page:
https://fantasy-amap.github.io/fantasy-talking/.Summary
AI-Generated Summary