FantasyPortrait: Улучшение анимации многоперсонажных портретов с использованием диффузионных трансформеров, дополненных выражениями
FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers
July 17, 2025
Авторы: Qiang Wang, Mengchao Wang, Fan Jiang, Yaqi Fan, Yonggang Qi, Mu Xu
cs.AI
Аннотация
Создание выразительных лицевых анимаций из статических изображений является сложной задачей. Предыдущие методы, основанные на явных геометрических приоритетах (например, лицевых ориентирах или 3DMM), часто страдают от артефактов при кросс-реэнэктменте и с трудом улавливают тонкие эмоции. Кроме того, существующие подходы не поддерживают анимацию нескольких персонажей, так как управляющие признаки от разных индивидов часто мешают друг другу, усложняя задачу. Для решения этих проблем мы предлагаем FantasyPortrait, основанный на диффузионных трансформерах фреймворк, способный генерировать высококачественные и эмоционально насыщенные анимации как для одиночных, так и для многоперсонажных сценариев. Наш метод включает стратегию обучения с усилением выражений, которая использует неявные представления для захвата динамики лица, не зависящей от идентичности, что улучшает способность модели воспроизводить тонкие эмоции. Для управления несколькими персонажами мы разработали механизм маскированного кросс-внимания, который обеспечивает независимое, но скоординированное генерирование выражений, эффективно предотвращая взаимное влияние признаков. Для продвижения исследований в этой области мы предлагаем набор данных Multi-Expr и ExprBench, специально разработанные наборы данных и бенчмарки для обучения и оценки многоперсонажных портретных анимаций. Многочисленные эксперименты демонстрируют, что FantasyPortrait значительно превосходит современные методы как по количественным метрикам, так и по качественным оценкам, особенно выделяясь в сложных контекстах кросс-реэнэктмента и многоперсонажных сценариев. Наша страница проекта доступна по адресу https://fantasy-amap.github.io/fantasy-portrait/.
English
Producing expressive facial animations from static images is a challenging
task. Prior methods relying on explicit geometric priors (e.g., facial
landmarks or 3DMM) often suffer from artifacts in cross reenactment and
struggle to capture subtle emotions. Furthermore, existing approaches lack
support for multi-character animation, as driving features from different
individuals frequently interfere with one another, complicating the task. To
address these challenges, we propose FantasyPortrait, a diffusion transformer
based framework capable of generating high-fidelity and emotion-rich animations
for both single- and multi-character scenarios. Our method introduces an
expression-augmented learning strategy that utilizes implicit representations
to capture identity-agnostic facial dynamics, enhancing the model's ability to
render fine-grained emotions. For multi-character control, we design a masked
cross-attention mechanism that ensures independent yet coordinated expression
generation, effectively preventing feature interference. To advance research in
this area, we propose the Multi-Expr dataset and ExprBench, which are
specifically designed datasets and benchmarks for training and evaluating
multi-character portrait animations. Extensive experiments demonstrate that
FantasyPortrait significantly outperforms state-of-the-art methods in both
quantitative metrics and qualitative evaluations, excelling particularly in
challenging cross reenactment and multi-character contexts. Our project page is
https://fantasy-amap.github.io/fantasy-portrait/.