ChatPaper.aiChatPaper

자연스러운 Talking Head 생성을 위한 마스크 선택적 상태 공간 모델링 기반 오디오-비주얼 제어 비디오 확산

Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

April 3, 2025
저자: Fa-Ting Hong, Zunnan Xu, Zixiang Zhou, Jun Zhou, Xiu Li, Qin Lin, Qinglin Lu, Dan Xu
cs.AI

초록

가상 아바타와 인간-컴퓨터 상호작용에서 말하는 머리 합성(talking head synthesis)은 매우 중요합니다. 그러나 기존의 대부분의 방법들은 일반적으로 단일 주요 모달리티로부터의 제어만을 수용하는 데 제한되어 있어 실제 활용도가 떨어집니다. 이를 해결하기 위해, 우리는 말하는 머리 비디오 생성에 있어 다중 신호 제어와 단일 신호 제어를 모두 지원하는 end-to-end 비디오 확산 프레임워크인 ACTalker를 소개합니다. 다중 제어를 위해, 우리는 각각 별도의 구동 신호를 사용하여 특정 얼굴 영역을 제어하는 다중 분기로 구성된 병렬 맘바(mamba) 구조를 설계했습니다. 모든 분기에 걸쳐 게이트 메커니즘이 적용되어 비디오 생성에 유연한 제어를 제공합니다. 제어된 비디오가 시간적 및 공간적으로 자연스럽게 조율되도록 하기 위해, 우리는 각 분기에서 구동 신호가 특징 토큰(feature tokens)을 두 차원 모두에서 조작할 수 있게 하는 맘바 구조를 사용합니다. 또한, 우리는 각 구동 신호가 맘바 구조 내에서 해당 얼굴 영역을 독립적으로 제어할 수 있도록 하는 마스크 드롭(mask-drop) 전략을 도입하여 제어 충돌을 방지합니다. 실험 결과는 우리의 방법이 다양한 신호에 의해 구동되는 자연스러운 얼굴 비디오를 생성하며, 맘바 레이어가 여러 구동 모달리티를 충돌 없이 원활하게 통합한다는 것을 보여줍니다.
English
Talking head synthesis is vital for virtual avatars and human-computer interaction. However, most existing methods are typically limited to accepting control from a single primary modality, restricting their practical utility. To this end, we introduce ACTalker, an end-to-end video diffusion framework that supports both multi-signals control and single-signal control for talking head video generation. For multiple control, we design a parallel mamba structure with multiple branches, each utilizing a separate driving signal to control specific facial regions. A gate mechanism is applied across all branches, providing flexible control over video generation. To ensure natural coordination of the controlled video both temporally and spatially, we employ the mamba structure, which enables driving signals to manipulate feature tokens across both dimensions in each branch. Additionally, we introduce a mask-drop strategy that allows each driving signal to independently control its corresponding facial region within the mamba structure, preventing control conflicts. Experimental results demonstrate that our method produces natural-looking facial videos driven by diverse signals and that the mamba layer seamlessly integrates multiple driving modalities without conflict.

Summary

AI-Generated Summary

PDF447April 4, 2025