ChatAnyone: Geração Estilizada de Vídeo de Retrato em Tempo Real com Modelo Hierárquico de Difusão de Movimento

Resumo

Retratos de vídeo-chat interativos em tempo real têm sido cada vez mais reconhecidos como a tendência futura, particularmente devido ao progresso notável alcançado nas tecnologias de chat de texto e voz. No entanto, os métodos existentes focam principalmente na geração em tempo real de movimentos da cabeça, mas lutam para produzir movimentos corporais sincronizados que correspondam a essas ações da cabeça. Além disso, alcançar um controle refinado sobre o estilo de fala e as nuances das expressões faciais continua sendo um desafio. Para abordar essas limitações, introduzimos uma nova estrutura para geração de vídeo de retrato estilizado em tempo real, permitindo um vídeo-chat expressivo e flexível que vai além da interação de cabeça falante para incluir o corpo superior. Nossa abordagem consiste em duas etapas. A primeira etapa envolve modelos eficientes de difusão de movimento hierárquico, que consideram tanto representações de movimento explícitas quanto implícitas com base em entradas de áudio, capazes de gerar uma variedade diversificada de expressões faciais com controle estilístico e sincronização entre os movimentos da cabeça e do corpo. A segunda etapa visa gerar vídeo de retrato com movimentos do corpo superior, incluindo gestos das mãos. Injetamos sinais de controle explícitos das mãos no gerador para produzir movimentos mais detalhados das mãos, e ainda realizamos refinamento facial para aumentar o realismo e a expressividade geral do vídeo de retrato. Além disso, nossa abordagem suporta a geração eficiente e contínua de vídeo de retrato do corpo superior em resolução máxima de 512 * 768 a até 30fps em uma GPU 4090, permitindo vídeo-chat interativo em tempo real. Resultados experimentais demonstram a capacidade de nossa abordagem de produzir vídeos de retrato com rica expressividade e movimentos naturais do corpo superior.

English

Real-time interactive video-chat portraits have been increasingly recognized as the future trend, particularly due to the remarkable progress made in text and voice chat technologies. However, existing methods primarily focus on real-time generation of head movements, but struggle to produce synchronized body motions that match these head actions. Additionally, achieving fine-grained control over the speaking style and nuances of facial expressions remains a challenge. To address these limitations, we introduce a novel framework for stylized real-time portrait video generation, enabling expressive and flexible video chat that extends from talking head to upper-body interaction. Our approach consists of the following two stages. The first stage involves efficient hierarchical motion diffusion models, that take both explicit and implicit motion representations into account based on audio inputs, which can generate a diverse range of facial expressions with stylistic control and synchronization between head and body movements. The second stage aims to generate portrait video featuring upper-body movements, including hand gestures. We inject explicit hand control signals into the generator to produce more detailed hand movements, and further perform face refinement to enhance the overall realism and expressiveness of the portrait video. Additionally, our approach supports efficient and continuous generation of upper-body portrait video in maximum 512 * 768 resolution at up to 30fps on 4090 GPU, supporting interactive video-chat in real-time. Experimental results demonstrate the capability of our approach to produce portrait videos with rich expressiveness and natural upper-body movements.

ChatAnyone: Geração Estilizada de Vídeo de Retrato em Tempo Real com Modelo Hierárquico de Difusão de Movimento

ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

Resumo

Support