ChatAnyone: Стилизованная генерация портретного видео в реальном времени с использованием иерархической модели диффузии движения
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model
March 27, 2025
Авторы: Jinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI
Аннотация
Интерактивные портреты для видеозвонков в реальном времени всё чаще признаются как будущий тренд, особенно благодаря значительному прогрессу в технологиях текстового и голосового общения. Однако существующие методы в основном сосредоточены на генерации движений головы в реальном времени, но испытывают трудности с созданием синхронизированных движений тела, соответствующих этим движениям головы. Кроме того, достижение детального контроля над стилем речи и нюансами мимики остаётся сложной задачей. Для решения этих ограничений мы представляем новую структуру для стилизованной генерации портретных видео в реальном времени, обеспечивающую выразительное и гибкое видеозвонки, расширяющиеся от "говорящей головы" до взаимодействия с верхней частью тела. Наш подход состоит из двух этапов. Первый этап включает эффективные иерархические модели диффузии движений, которые учитывают как явные, так и неявные представления движений на основе аудиовходов, что позволяет генерировать разнообразные выражения лица с контролем стиля и синхронизацией движений головы и тела. Второй этап направлен на создание портретного видео с движениями верхней части тела, включая жесты рук. Мы внедряем явные сигналы управления руками в генератор для создания более детализированных движений рук и дополнительно выполняем уточнение лица для повышения общей реалистичности и выразительности портретного видео. Кроме того, наш подход поддерживает эффективную и непрерывную генерацию портретного видео верхней части тела с максимальным разрешением 512 * 768 и частотой до 30 кадров в секунду на GPU 4090, обеспечивая интерактивные видеозвонки в реальном времени. Экспериментальные результаты демонстрируют способность нашего подхода создавать портретные видео с богатой выразительностью и естественными движениями верхней части тела.
English
Real-time interactive video-chat portraits have been increasingly recognized
as the future trend, particularly due to the remarkable progress made in text
and voice chat technologies. However, existing methods primarily focus on
real-time generation of head movements, but struggle to produce synchronized
body motions that match these head actions. Additionally, achieving
fine-grained control over the speaking style and nuances of facial expressions
remains a challenge. To address these limitations, we introduce a novel
framework for stylized real-time portrait video generation, enabling expressive
and flexible video chat that extends from talking head to upper-body
interaction. Our approach consists of the following two stages. The first stage
involves efficient hierarchical motion diffusion models, that take both
explicit and implicit motion representations into account based on audio
inputs, which can generate a diverse range of facial expressions with stylistic
control and synchronization between head and body movements. The second stage
aims to generate portrait video featuring upper-body movements, including hand
gestures. We inject explicit hand control signals into the generator to produce
more detailed hand movements, and further perform face refinement to enhance
the overall realism and expressiveness of the portrait video. Additionally, our
approach supports efficient and continuous generation of upper-body portrait
video in maximum 512 * 768 resolution at up to 30fps on 4090 GPU, supporting
interactive video-chat in real-time. Experimental results demonstrate the
capability of our approach to produce portrait videos with rich expressiveness
and natural upper-body movements.Summary
AI-Generated Summary