HuMo : Génération de vidéos centrée sur l'humain via un conditionnement multimodal collaboratif
HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning
September 10, 2025
papers.authors: Liyang Chen, Tianxiang Ma, Jiawei Liu, Bingchuan Li, Zhuowei Chen, Lijie Liu, Xu He, Gen Li, Qian He, Zhiyong Wu
cs.AI
papers.abstract
Les méthodes de génération de vidéos centrées sur l'humain (HCVG) visent à synthétiser des vidéos humaines à partir d'entrées multimodales, incluant du texte, des images et de l'audio. Les méthodes existantes peinent à coordonner efficacement ces modalités hétérogènes en raison de deux défis majeurs : la rareté des données d'entraînement avec des conditions de triplet appariées et la difficulté de collaborer les sous-tâches de préservation du sujet et de synchronisation audio-visuelle avec des entrées multimodales. Dans ce travail, nous présentons HuMo, un cadre unifié HCVG pour le contrôle multimodal collaboratif. Pour le premier défi, nous construisons un ensemble de données de haute qualité avec des textes, des images de référence et des audios diversifiés et appariés. Pour le second défi, nous proposons un paradigme d'entraînement multimodal progressif en deux étapes avec des stratégies spécifiques aux tâches. Pour la tâche de préservation du sujet, afin de maintenir les capacités de suivi de l'invite et de génération visuelle du modèle de base, nous adoptons une stratégie d'injection d'image minimalement invasive. Pour la tâche de synchronisation audio-visuelle, en plus de la couche d'attention croisée audio couramment utilisée, nous proposons une stratégie de focalisation par prédiction qui guide implicitement le modèle à associer l'audio aux régions faciales. Pour l'apprentissage conjoint des contrôlabilités à travers les entrées multimodales, en nous appuyant sur les capacités précédemment acquises, nous incorporons progressivement la tâche de synchronisation audio-visuelle. Pendant l'inférence, pour un contrôle multimodal flexible et granulaire, nous concevons une stratégie de guidage sans classificateur adaptative dans le temps qui ajuste dynamiquement les poids de guidage à travers les étapes de débruitage. Les résultats expérimentaux approfondis démontrent que HuMo surpasse les méthodes spécialisées de pointe dans les sous-tâches, établissant un cadre unifié pour la génération de vidéos centrées sur l'humain conditionnée de manière collaborative par des entrées multimodales. Page du projet : https://phantom-video.github.io/HuMo.
English
Human-Centric Video Generation (HCVG) methods seek to synthesize human videos
from multimodal inputs, including text, image, and audio. Existing methods
struggle to effectively coordinate these heterogeneous modalities due to two
challenges: the scarcity of training data with paired triplet conditions and
the difficulty of collaborating the sub-tasks of subject preservation and
audio-visual sync with multimodal inputs. In this work, we present HuMo, a
unified HCVG framework for collaborative multimodal control. For the first
challenge, we construct a high-quality dataset with diverse and paired text,
reference images, and audio. For the second challenge, we propose a two-stage
progressive multimodal training paradigm with task-specific strategies. For the
subject preservation task, to maintain the prompt following and visual
generation abilities of the foundation model, we adopt the minimal-invasive
image injection strategy. For the audio-visual sync task, besides the commonly
adopted audio cross-attention layer, we propose a focus-by-predicting strategy
that implicitly guides the model to associate audio with facial regions. For
joint learning of controllabilities across multimodal inputs, building on
previously acquired capabilities, we progressively incorporate the audio-visual
sync task. During inference, for flexible and fine-grained multimodal control,
we design a time-adaptive Classifier-Free Guidance strategy that dynamically
adjusts guidance weights across denoising steps. Extensive experimental results
demonstrate that HuMo surpasses specialized state-of-the-art methods in
sub-tasks, establishing a unified framework for collaborative
multimodal-conditioned HCVG. Project Page:
https://phantom-video.github.io/HuMo.