ChatAnyone: Generación de videos de retratos estilizados en tiempo real con un modelo jerárquico de difusión de movimiento.
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model
March 27, 2025
Autores: Jinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI
Resumen
Los retratos de videochat interactivos en tiempo real han sido cada vez más reconocidos como la tendencia futura, particularmente debido al notable progreso alcanzado en las tecnologías de chat de texto y voz. Sin embargo, los métodos existentes se centran principalmente en la generación en tiempo real de movimientos de la cabeza, pero tienen dificultades para producir movimientos corporales sincronizados que coincidan con estas acciones de la cabeza. Además, lograr un control detallado sobre el estilo de habla y los matices de las expresiones faciales sigue siendo un desafío. Para abordar estas limitaciones, presentamos un marco novedoso para la generación de retratos de video estilizados en tiempo real, permitiendo un videochat expresivo y flexible que se extiende desde la cabeza parlante hasta la interacción de la parte superior del cuerpo. Nuestro enfoque consta de las siguientes dos etapas. La primera etapa involucra modelos eficientes de difusión de movimiento jerárquico, que consideran tanto representaciones de movimiento explícitas como implícitas basadas en entradas de audio, lo que puede generar una amplia gama de expresiones faciales con control estilístico y sincronización entre los movimientos de la cabeza y el cuerpo. La segunda etapa tiene como objetivo generar videos de retrato que incluyan movimientos de la parte superior del cuerpo, incluyendo gestos con las manos. Inyectamos señales de control explícitas de las manos en el generador para producir movimientos de manos más detallados, y además realizamos un refinamiento facial para mejorar el realismo y la expresividad general del video de retrato. Adicionalmente, nuestro enfoque soporta la generación eficiente y continua de videos de retrato de la parte superior del cuerpo en una resolución máxima de 512 * 768 a hasta 30 fps en una GPU 4090, permitiendo videochat interactivo en tiempo real. Los resultados experimentales demuestran la capacidad de nuestro enfoque para producir videos de retrato con una rica expresividad y movimientos naturales de la parte superior del cuerpo.
English
Real-time interactive video-chat portraits have been increasingly recognized
as the future trend, particularly due to the remarkable progress made in text
and voice chat technologies. However, existing methods primarily focus on
real-time generation of head movements, but struggle to produce synchronized
body motions that match these head actions. Additionally, achieving
fine-grained control over the speaking style and nuances of facial expressions
remains a challenge. To address these limitations, we introduce a novel
framework for stylized real-time portrait video generation, enabling expressive
and flexible video chat that extends from talking head to upper-body
interaction. Our approach consists of the following two stages. The first stage
involves efficient hierarchical motion diffusion models, that take both
explicit and implicit motion representations into account based on audio
inputs, which can generate a diverse range of facial expressions with stylistic
control and synchronization between head and body movements. The second stage
aims to generate portrait video featuring upper-body movements, including hand
gestures. We inject explicit hand control signals into the generator to produce
more detailed hand movements, and further perform face refinement to enhance
the overall realism and expressiveness of the portrait video. Additionally, our
approach supports efficient and continuous generation of upper-body portrait
video in maximum 512 * 768 resolution at up to 30fps on 4090 GPU, supporting
interactive video-chat in real-time. Experimental results demonstrate the
capability of our approach to produce portrait videos with rich expressiveness
and natural upper-body movements.Summary
AI-Generated Summary