HuMo: Generación de videos centrada en el ser humano mediante condicionamiento multimodal colaborativo
HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning
September 10, 2025
Autores: Liyang Chen, Tianxiang Ma, Jiawei Liu, Bingchuan Li, Zhuowei Chen, Lijie Liu, Xu He, Gen Li, Qian He, Zhiyong Wu
cs.AI
Resumen
Los métodos de Generación de Vídeo Centrado en Humanos (HCVG, por sus siglas en inglés) buscan sintetizar vídeos humanos a partir de entradas multimodales, incluyendo texto, imágenes y audio. Los métodos existentes enfrentan dificultades para coordinar eficazmente estas modalidades heterogéneas debido a dos desafíos principales: la escasez de datos de entrenamiento con condiciones de tripleta emparejadas y la dificultad de colaborar en las subtareas de preservación del sujeto y sincronización audio-visual con entradas multimodales. En este trabajo, presentamos HuMo, un marco unificado de HCVG para el control multimodal colaborativo. Para el primer desafío, construimos un conjunto de datos de alta calidad con texto, imágenes de referencia y audio diversos y emparejados. Para el segundo desafío, proponemos un paradigma de entrenamiento multimodal progresivo en dos etapas con estrategias específicas para cada tarea. Para la tarea de preservación del sujeto, con el fin de mantener la capacidad de seguimiento de instrucciones y generación visual del modelo base, adoptamos una estrategia de inyección de imágenes mínimamente invasiva. Para la tarea de sincronización audio-visual, además de la capa de atención cruzada de audio comúnmente adoptada, proponemos una estrategia de enfoque mediante predicción que guía implícitamente al modelo a asociar el audio con las regiones faciales. Para el aprendizaje conjunto de las capacidades de control en entradas multimodales, basándonos en capacidades previamente adquiridas, incorporamos progresivamente la tarea de sincronización audio-visual. Durante la inferencia, para un control multimodal flexible y de grano fino, diseñamos una estrategia de Guía Libre de Clasificador adaptativa en el tiempo que ajusta dinámicamente los pesos de guía a lo largo de los pasos de eliminación de ruido. Los resultados experimentales extensivos demuestran que HuMo supera a los métodos especializados de vanguardia en las subtareas, estableciendo un marco unificado para la HCVG condicionada multimodalmente de manera colaborativa. Página del proyecto: https://phantom-video.github.io/HuMo.
English
Human-Centric Video Generation (HCVG) methods seek to synthesize human videos
from multimodal inputs, including text, image, and audio. Existing methods
struggle to effectively coordinate these heterogeneous modalities due to two
challenges: the scarcity of training data with paired triplet conditions and
the difficulty of collaborating the sub-tasks of subject preservation and
audio-visual sync with multimodal inputs. In this work, we present HuMo, a
unified HCVG framework for collaborative multimodal control. For the first
challenge, we construct a high-quality dataset with diverse and paired text,
reference images, and audio. For the second challenge, we propose a two-stage
progressive multimodal training paradigm with task-specific strategies. For the
subject preservation task, to maintain the prompt following and visual
generation abilities of the foundation model, we adopt the minimal-invasive
image injection strategy. For the audio-visual sync task, besides the commonly
adopted audio cross-attention layer, we propose a focus-by-predicting strategy
that implicitly guides the model to associate audio with facial regions. For
joint learning of controllabilities across multimodal inputs, building on
previously acquired capabilities, we progressively incorporate the audio-visual
sync task. During inference, for flexible and fine-grained multimodal control,
we design a time-adaptive Classifier-Free Guidance strategy that dynamically
adjusts guidance weights across denoising steps. Extensive experimental results
demonstrate that HuMo surpasses specialized state-of-the-art methods in
sub-tasks, establishing a unified framework for collaborative
multimodal-conditioned HCVG. Project Page:
https://phantom-video.github.io/HuMo.