ChatAnyone : Génération stylisée en temps réel de vidéos de portraits avec un modèle hiérarchique de diffusion de mouvement
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model
March 27, 2025
Auteurs: Jinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI
Résumé
Les portraits vidéo interactifs en temps réel sont de plus en plus reconnus comme la tendance future, notamment grâce aux progrès remarquables réalisés dans les technologies de chat textuel et vocal. Cependant, les méthodes existantes se concentrent principalement sur la génération en temps réel des mouvements de la tête, mais peinent à produire des mouvements corporels synchronisés avec ces actions de la tête. De plus, obtenir un contrôle précis du style de parole et des nuances des expressions faciales reste un défi. Pour répondre à ces limitations, nous introduisons un nouveau cadre pour la génération stylisée de portraits vidéo en temps réel, permettant un chat vidéo expressif et flexible, allant de la tête parlante à l'interaction du haut du corps. Notre approche se compose des deux étapes suivantes. La première étape implique des modèles de diffusion de mouvement hiérarchiques efficaces, qui prennent en compte à la fois des représentations explicites et implicites du mouvement basées sur des entrées audio, pouvant générer une variété d'expressions faciales avec un contrôle stylistique et une synchronisation entre les mouvements de la tête et du corps. La seconde étape vise à générer des vidéos de portrait incluant des mouvements du haut du corps, y compris des gestes des mains. Nous injectons des signaux de contrôle explicites des mains dans le générateur pour produire des mouvements de main plus détaillés, et effectuons en outre un raffinement du visage pour améliorer le réalisme et l'expressivité globale de la vidéo de portrait. De plus, notre approche supporte une génération efficace et continue de vidéos de portrait du haut du corps en résolution maximale de 512 * 768 à jusqu'à 30 images par seconde sur une GPU 4090, permettant un chat vidéo interactif en temps réel. Les résultats expérimentaux démontrent la capacité de notre approche à produire des vidéos de portrait avec une expressivité riche et des mouvements naturels du haut du corps.
English
Real-time interactive video-chat portraits have been increasingly recognized
as the future trend, particularly due to the remarkable progress made in text
and voice chat technologies. However, existing methods primarily focus on
real-time generation of head movements, but struggle to produce synchronized
body motions that match these head actions. Additionally, achieving
fine-grained control over the speaking style and nuances of facial expressions
remains a challenge. To address these limitations, we introduce a novel
framework for stylized real-time portrait video generation, enabling expressive
and flexible video chat that extends from talking head to upper-body
interaction. Our approach consists of the following two stages. The first stage
involves efficient hierarchical motion diffusion models, that take both
explicit and implicit motion representations into account based on audio
inputs, which can generate a diverse range of facial expressions with stylistic
control and synchronization between head and body movements. The second stage
aims to generate portrait video featuring upper-body movements, including hand
gestures. We inject explicit hand control signals into the generator to produce
more detailed hand movements, and further perform face refinement to enhance
the overall realism and expressiveness of the portrait video. Additionally, our
approach supports efficient and continuous generation of upper-body portrait
video in maximum 512 * 768 resolution at up to 30fps on 4090 GPU, supporting
interactive video-chat in real-time. Experimental results demonstrate the
capability of our approach to produce portrait videos with rich expressiveness
and natural upper-body movements.Summary
AI-Generated Summary