FantasyPortrait: Улучшение анимации многоперсонажных портретов с использованием диффузионных трансформеров, дополненных выражениями

Аннотация

Создание выразительных лицевых анимаций из статических изображений является сложной задачей. Предыдущие методы, основанные на явных геометрических приоритетах (например, лицевых ориентирах или 3DMM), часто страдают от артефактов при кросс-реэнэктменте и с трудом улавливают тонкие эмоции. Кроме того, существующие подходы не поддерживают анимацию нескольких персонажей, так как управляющие признаки от разных индивидов часто мешают друг другу, усложняя задачу. Для решения этих проблем мы предлагаем FantasyPortrait, основанный на диффузионных трансформерах фреймворк, способный генерировать высококачественные и эмоционально насыщенные анимации как для одиночных, так и для многоперсонажных сценариев. Наш метод включает стратегию обучения с усилением выражений, которая использует неявные представления для захвата динамики лица, не зависящей от идентичности, что улучшает способность модели воспроизводить тонкие эмоции. Для управления несколькими персонажами мы разработали механизм маскированного кросс-внимания, который обеспечивает независимое, но скоординированное генерирование выражений, эффективно предотвращая взаимное влияние признаков. Для продвижения исследований в этой области мы предлагаем набор данных Multi-Expr и ExprBench, специально разработанные наборы данных и бенчмарки для обучения и оценки многоперсонажных портретных анимаций. Многочисленные эксперименты демонстрируют, что FantasyPortrait значительно превосходит современные методы как по количественным метрикам, так и по качественным оценкам, особенно выделяясь в сложных контекстах кросс-реэнэктмента и многоперсонажных сценариев. Наша страница проекта доступна по адресу https://fantasy-amap.github.io/fantasy-portrait/.

English

Producing expressive facial animations from static images is a challenging task. Prior methods relying on explicit geometric priors (e.g., facial landmarks or 3DMM) often suffer from artifacts in cross reenactment and struggle to capture subtle emotions. Furthermore, existing approaches lack support for multi-character animation, as driving features from different individuals frequently interfere with one another, complicating the task. To address these challenges, we propose FantasyPortrait, a diffusion transformer based framework capable of generating high-fidelity and emotion-rich animations for both single- and multi-character scenarios. Our method introduces an expression-augmented learning strategy that utilizes implicit representations to capture identity-agnostic facial dynamics, enhancing the model's ability to render fine-grained emotions. For multi-character control, we design a masked cross-attention mechanism that ensures independent yet coordinated expression generation, effectively preventing feature interference. To advance research in this area, we propose the Multi-Expr dataset and ExprBench, which are specifically designed datasets and benchmarks for training and evaluating multi-character portrait animations. Extensive experiments demonstrate that FantasyPortrait significantly outperforms state-of-the-art methods in both quantitative metrics and qualitative evaluations, excelling particularly in challenging cross reenactment and multi-character contexts. Our project page is https://fantasy-amap.github.io/fantasy-portrait/.

FantasyPortrait: Улучшение анимации многоперсонажных портретов с использованием диффузионных трансформеров, дополненных выражениями

FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers

Аннотация

Support