Difusión de Video Controlada Audiovisual con Modelado de Espacios de Estado Selectivo Enmascarado para la Generación de Cabezas Parlantes Naturales
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation
April 3, 2025
Autores: Fa-Ting Hong, Zunnan Xu, Zixiang Zhou, Jun Zhou, Xiu Li, Qin Lin, Qinglin Lu, Dan Xu
cs.AI
Resumen
La síntesis de cabezas parlantes es fundamental para los avatares virtuales y la interacción humano-computadora. Sin embargo, la mayoría de los métodos existentes suelen estar limitados a aceptar el control de una única modalidad principal, lo que restringe su utilidad práctica. Con este fin, presentamos ACTalker, un marco de difusión de video de extremo a extremo que admite tanto el control de múltiples señales como el control de una sola señal para la generación de videos de cabezas parlantes. Para el control múltiple, diseñamos una estructura mamba paralela con múltiples ramas, cada una utilizando una señal de control separada para manipular regiones faciales específicas. Se aplica un mecanismo de compuerta en todas las ramas, proporcionando un control flexible sobre la generación de video. Para garantizar una coordinación natural del video controlado tanto temporal como espacialmente, empleamos la estructura mamba, que permite que las señales de control manipulen los tokens de características en ambas dimensiones en cada rama. Además, introducimos una estrategia de caída de máscara que permite que cada señal de control controle de manera independiente su región facial correspondiente dentro de la estructura mamba, evitando conflictos de control. Los resultados experimentales demuestran que nuestro método produce videos faciales de aspecto natural impulsados por diversas señales y que la capa mamba integra sin problemas múltiples modalidades de control sin conflictos.
English
Talking head synthesis is vital for virtual avatars and human-computer
interaction. However, most existing methods are typically limited to accepting
control from a single primary modality, restricting their practical utility. To
this end, we introduce ACTalker, an end-to-end video diffusion
framework that supports both multi-signals control and single-signal control
for talking head video generation. For multiple control, we design a parallel
mamba structure with multiple branches, each utilizing a separate driving
signal to control specific facial regions. A gate mechanism is applied across
all branches, providing flexible control over video generation. To ensure
natural coordination of the controlled video both temporally and spatially, we
employ the mamba structure, which enables driving signals to manipulate feature
tokens across both dimensions in each branch. Additionally, we introduce a
mask-drop strategy that allows each driving signal to independently control its
corresponding facial region within the mamba structure, preventing control
conflicts. Experimental results demonstrate that our method produces
natural-looking facial videos driven by diverse signals and that the mamba
layer seamlessly integrates multiple driving modalities without conflict.Summary
AI-Generated Summary