ChatPaper.aiChatPaper

ChatAnyone: 계층적 모션 확산 모델을 통한 스타일화된 실시간 초상화 비디오 생성

ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

March 27, 2025
저자: Jinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo
cs.AI

초록

실시간 인터랙티브 비디오 채팅 초상화는 특히 텍스트 및 음성 채팅 기술의 눈부신 발전으로 인해 미래 트렌드로 점점 더 주목받고 있습니다. 그러나 기존 방법들은 주로 실시간 헤드 움직임 생성에 초점을 맞추고 있으며, 이러한 헤드 동작과 동기화된 신체 움직임을 생성하는 데 어려움을 겪고 있습니다. 또한, 말하는 스타일과 미세한 표정 변화에 대한 세밀한 제어를 달성하는 것은 여전히 과제로 남아 있습니다. 이러한 한계를 해결하기 위해, 우리는 표현력 있고 유연한 비디오 채팅을 가능하게 하는 스타일화된 실시간 초상화 비디오 생성 프레임워크를 소개합니다. 이 프레임워크는 말하는 헤드에서 상체 상호작용까지 확장됩니다. 우리의 접근 방식은 다음과 같은 두 단계로 구성됩니다. 첫 번째 단계는 오디오 입력을 기반으로 명시적 및 암묵적 모션 표현을 모두 고려하는 효율적인 계층적 모션 확산 모델을 포함하며, 이는 다양한 표정을 스타일리시하게 제어하고 헤드와 신체 움직임 간의 동기화를 생성할 수 있습니다. 두 번째 단계는 손 동작을 포함한 상체 움직임이 특징인 초상화 비디오를 생성하는 것을 목표로 합니다. 우리는 생성기에 명시적인 손 제어 신호를 주입하여 더 세부적인 손 움직임을 생성하고, 초상화 비디오의 전반적인 사실감과 표현력을 향상시키기 위해 얼굴 정제를 추가로 수행합니다. 또한, 우리의 접근 방식은 4090 GPU에서 최대 512 * 768 해상도로 최대 30fps의 상체 초상화 비디오를 효율적이고 연속적으로 생성할 수 있어 실시간 인터랙티브 비디오 채팅을 지원합니다. 실험 결과는 우리의 접근 방식이 풍부한 표현력과 자연스러운 상체 움직임을 가진 초상화 비디오를 생성할 수 있는 능력을 입증합니다.
English
Real-time interactive video-chat portraits have been increasingly recognized as the future trend, particularly due to the remarkable progress made in text and voice chat technologies. However, existing methods primarily focus on real-time generation of head movements, but struggle to produce synchronized body motions that match these head actions. Additionally, achieving fine-grained control over the speaking style and nuances of facial expressions remains a challenge. To address these limitations, we introduce a novel framework for stylized real-time portrait video generation, enabling expressive and flexible video chat that extends from talking head to upper-body interaction. Our approach consists of the following two stages. The first stage involves efficient hierarchical motion diffusion models, that take both explicit and implicit motion representations into account based on audio inputs, which can generate a diverse range of facial expressions with stylistic control and synchronization between head and body movements. The second stage aims to generate portrait video featuring upper-body movements, including hand gestures. We inject explicit hand control signals into the generator to produce more detailed hand movements, and further perform face refinement to enhance the overall realism and expressiveness of the portrait video. Additionally, our approach supports efficient and continuous generation of upper-body portrait video in maximum 512 * 768 resolution at up to 30fps on 4090 GPU, supporting interactive video-chat in real-time. Experimental results demonstrate the capability of our approach to produce portrait videos with rich expressiveness and natural upper-body movements.

Summary

AI-Generated Summary

PDF253March 28, 2025