ChatAnyone: Gestileerde real-time portretvideogeneratie met hiërarchisch bewegingsdiffusiemodel
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model
March 27, 2025
Auteurs: Jinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI
Samenvatting
Real-time interactieve videochatportretten worden steeds meer erkend als de toekomstige trend, vooral vanwege de opmerkelijke vooruitgang in tekst- en spraakchattechnologieën. Bestaande methoden richten zich echter voornamelijk op de real-time generatie van hoofdbewegingen, maar hebben moeite om gesynchroniseerde lichaamsbewegingen te produceren die bij deze hoofdbewegingen passen. Daarnaast blijft het bereiken van fijnmazige controle over de spreekstijl en de nuances van gezichtsuitdrukkingen een uitdaging. Om deze beperkingen aan te pakken, introduceren we een nieuw raamwerk voor gestileerde real-time portretvideogeneratie, dat expressieve en flexibele videochat mogelijk maakt, variërend van pratende hoofden tot bovenlichaaminteractie. Onze aanpak bestaat uit de volgende twee fasen. De eerste fase omvat efficiënte hiërarchische bewegingsdiffusiemodellen, die zowel expliciete als impliciete bewegingsrepresentaties in overweging nemen op basis van audio-inputs, wat een breed scala aan gezichtsuitdrukkingen kan genereren met stilistische controle en synchronisatie tussen hoofdbewegingen en lichaamsbewegingen. De tweede fase is gericht op het genereren van portretvideo's met bovenlichaambewegingen, inclusief handgebaren. We injecteren expliciete handcontrolesignalen in de generator om gedetailleerdere handbewegingen te produceren en voeren gezichtsverfijning uit om de algehele realiteit en expressiviteit van de portretvideo te verbeteren. Bovendien ondersteunt onze aanpak efficiënte en continue generatie van bovenlichaamportretvideo's in een maximale resolutie van 512 * 768 bij maximaal 30 fps op een 4090 GPU, wat real-time interactieve videochat mogelijk maakt. Experimentele resultaten demonstreren het vermogen van onze aanpak om portretvideo's te produceren met rijke expressiviteit en natuurlijke bovenlichaambewegingen.
English
Real-time interactive video-chat portraits have been increasingly recognized
as the future trend, particularly due to the remarkable progress made in text
and voice chat technologies. However, existing methods primarily focus on
real-time generation of head movements, but struggle to produce synchronized
body motions that match these head actions. Additionally, achieving
fine-grained control over the speaking style and nuances of facial expressions
remains a challenge. To address these limitations, we introduce a novel
framework for stylized real-time portrait video generation, enabling expressive
and flexible video chat that extends from talking head to upper-body
interaction. Our approach consists of the following two stages. The first stage
involves efficient hierarchical motion diffusion models, that take both
explicit and implicit motion representations into account based on audio
inputs, which can generate a diverse range of facial expressions with stylistic
control and synchronization between head and body movements. The second stage
aims to generate portrait video featuring upper-body movements, including hand
gestures. We inject explicit hand control signals into the generator to produce
more detailed hand movements, and further perform face refinement to enhance
the overall realism and expressiveness of the portrait video. Additionally, our
approach supports efficient and continuous generation of upper-body portrait
video in maximum 512 * 768 resolution at up to 30fps on 4090 GPU, supporting
interactive video-chat in real-time. Experimental results demonstrate the
capability of our approach to produce portrait videos with rich expressiveness
and natural upper-body movements.Summary
AI-Generated Summary