HuMo: Menschzentrierte Videogenerierung durch kollaborative multimodale Konditionierung
HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning
September 10, 2025
papers.authors: Liyang Chen, Tianxiang Ma, Jiawei Liu, Bingchuan Li, Zhuowei Chen, Lijie Liu, Xu He, Gen Li, Qian He, Zhiyong Wu
cs.AI
papers.abstract
Human-Centric Video Generation (HCVG)-Methoden zielen darauf ab, menschliche Videos aus multimodalen Eingaben wie Text, Bild und Audio zu synthetisieren. Bestehende Methoden haben Schwierigkeiten, diese heterogenen Modalitäten effektiv zu koordinieren, was auf zwei Herausforderungen zurückzuführen ist: die Knappheit von Trainingsdaten mit gepaarten Triplett-Bedingungen und die Schwierigkeit, die Teilaufgaben der Subjekterhaltung und der Audio-Visual-Synchronisation mit multimodalen Eingaben zu koordinieren. In dieser Arbeit präsentieren wir HuMo, ein einheitliches HCVG-Framework für die kollaborative multimodale Steuerung. Für die erste Herausforderung erstellen wir einen hochwertigen Datensatz mit vielfältigen und gepaarten Texten, Referenzbildern und Audio. Für die zweite Herausforderung schlagen wir ein zweistufiges progressives multimodales Trainingsparadigma mit aufgabenspezifischen Strategien vor. Für die Aufgabe der Subjekterhaltung verwenden wir die minimal-invasive Bildinjektionsstrategie, um die Prompt-Following- und visuelle Generierungsfähigkeiten des Basismodells zu bewahren. Für die Aufgabe der Audio-Visual-Synchronisation schlagen wir neben der üblicherweise verwendeten Audio-Cross-Attention-Schicht eine Focus-by-Predicting-Strategie vor, die das Modell implizit dazu anleitet, Audio mit Gesichtsregionen zu assoziieren. Für das gemeinsame Lernen der Steuerbarkeiten über multimodale Eingaben hinweg bauen wir auf zuvor erworbenen Fähigkeiten auf und integrieren schrittweise die Aufgabe der Audio-Visual-Synchronisation. Während der Inferenz entwerfen wir für eine flexible und fein abgestimmte multimodale Steuerung eine zeitadaptive Classifier-Free Guidance-Strategie, die die Führungsgewichte dynamisch über die Denoising-Schritte hinweg anpasst. Umfangreiche experimentelle Ergebnisse zeigen, dass HuMo spezialisierte State-of-the-Art-Methoden in Teilaufgaben übertrifft und ein einheitliches Framework für die kollaborative multimodalbedingte HCVG etabliert. Projektseite: https://phantom-video.github.io/HuMo.
English
Human-Centric Video Generation (HCVG) methods seek to synthesize human videos
from multimodal inputs, including text, image, and audio. Existing methods
struggle to effectively coordinate these heterogeneous modalities due to two
challenges: the scarcity of training data with paired triplet conditions and
the difficulty of collaborating the sub-tasks of subject preservation and
audio-visual sync with multimodal inputs. In this work, we present HuMo, a
unified HCVG framework for collaborative multimodal control. For the first
challenge, we construct a high-quality dataset with diverse and paired text,
reference images, and audio. For the second challenge, we propose a two-stage
progressive multimodal training paradigm with task-specific strategies. For the
subject preservation task, to maintain the prompt following and visual
generation abilities of the foundation model, we adopt the minimal-invasive
image injection strategy. For the audio-visual sync task, besides the commonly
adopted audio cross-attention layer, we propose a focus-by-predicting strategy
that implicitly guides the model to associate audio with facial regions. For
joint learning of controllabilities across multimodal inputs, building on
previously acquired capabilities, we progressively incorporate the audio-visual
sync task. During inference, for flexible and fine-grained multimodal control,
we design a time-adaptive Classifier-Free Guidance strategy that dynamically
adjusts guidance weights across denoising steps. Extensive experimental results
demonstrate that HuMo surpasses specialized state-of-the-art methods in
sub-tasks, establishing a unified framework for collaborative
multimodal-conditioned HCVG. Project Page:
https://phantom-video.github.io/HuMo.