ChatAnyone: Geração Estilizada de Vídeo de Retrato em Tempo Real com Modelo Hierárquico de Difusão de Movimento
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model
March 27, 2025
Autores: Jinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI
Resumo
Retratos de vídeo-chat interativos em tempo real têm sido cada vez mais reconhecidos como a tendência futura, particularmente devido ao progresso notável alcançado nas tecnologias de chat de texto e voz. No entanto, os métodos existentes focam principalmente na geração em tempo real de movimentos da cabeça, mas lutam para produzir movimentos corporais sincronizados que correspondam a essas ações da cabeça. Além disso, alcançar um controle refinado sobre o estilo de fala e as nuances das expressões faciais continua sendo um desafio. Para abordar essas limitações, introduzimos uma nova estrutura para geração de vídeo de retrato estilizado em tempo real, permitindo um vídeo-chat expressivo e flexível que vai além da interação de cabeça falante para incluir o corpo superior. Nossa abordagem consiste em duas etapas. A primeira etapa envolve modelos eficientes de difusão de movimento hierárquico, que consideram tanto representações de movimento explícitas quanto implícitas com base em entradas de áudio, capazes de gerar uma variedade diversificada de expressões faciais com controle estilístico e sincronização entre os movimentos da cabeça e do corpo. A segunda etapa visa gerar vídeo de retrato com movimentos do corpo superior, incluindo gestos das mãos. Injetamos sinais de controle explícitos das mãos no gerador para produzir movimentos mais detalhados das mãos, e ainda realizamos refinamento facial para aumentar o realismo e a expressividade geral do vídeo de retrato. Além disso, nossa abordagem suporta a geração eficiente e contínua de vídeo de retrato do corpo superior em resolução máxima de 512 * 768 a até 30fps em uma GPU 4090, permitindo vídeo-chat interativo em tempo real. Resultados experimentais demonstram a capacidade de nossa abordagem de produzir vídeos de retrato com rica expressividade e movimentos naturais do corpo superior.
English
Real-time interactive video-chat portraits have been increasingly recognized
as the future trend, particularly due to the remarkable progress made in text
and voice chat technologies. However, existing methods primarily focus on
real-time generation of head movements, but struggle to produce synchronized
body motions that match these head actions. Additionally, achieving
fine-grained control over the speaking style and nuances of facial expressions
remains a challenge. To address these limitations, we introduce a novel
framework for stylized real-time portrait video generation, enabling expressive
and flexible video chat that extends from talking head to upper-body
interaction. Our approach consists of the following two stages. The first stage
involves efficient hierarchical motion diffusion models, that take both
explicit and implicit motion representations into account based on audio
inputs, which can generate a diverse range of facial expressions with stylistic
control and synchronization between head and body movements. The second stage
aims to generate portrait video featuring upper-body movements, including hand
gestures. We inject explicit hand control signals into the generator to produce
more detailed hand movements, and further perform face refinement to enhance
the overall realism and expressiveness of the portrait video. Additionally, our
approach supports efficient and continuous generation of upper-body portrait
video in maximum 512 * 768 resolution at up to 30fps on 4090 GPU, supporting
interactive video-chat in real-time. Experimental results demonstrate the
capability of our approach to produce portrait videos with rich expressiveness
and natural upper-body movements.Summary
AI-Generated Summary