HuMo: Mensgerichte Videogeneratie via Collaboratieve Multi-Modale Conditionering
HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning
September 10, 2025
Auteurs: Liyang Chen, Tianxiang Ma, Jiawei Liu, Bingchuan Li, Zhuowei Chen, Lijie Liu, Xu He, Gen Li, Qian He, Zhiyong Wu
cs.AI
Samenvatting
Human-Centric Video Generation (HCVG)-methoden streven ernaar mensgerichte video's te synthetiseren vanuit multimodale invoer, waaronder tekst, afbeeldingen en audio. Bestaande methoden hebben moeite om deze heterogene modaliteiten effectief te coördineren vanwege twee uitdagingen: de schaarste aan trainingsgegevens met gekoppelde tripletcondities en de moeilijkheid om de subtaken van subjectbehoud en audiovisuele synchronisatie met multimodale invoer te combineren. In dit werk presenteren we HuMo, een uniform HCVG-raamwerk voor collaboratieve multimodale controle. Voor de eerste uitdaging construeren we een hoogwaardige dataset met diverse en gekoppelde tekst, referentieafbeeldingen en audio. Voor de tweede uitdaging stellen we een tweefasig progressief multimodaal trainingsparadigma voor met taakspecifieke strategieën. Voor de taak van subjectbehoud, om de promptvolgende en visuele generatiecapaciteiten van het basismodel te behouden, hanteren we de minimaal-invasieve afbeeldingsinjectiestrategie. Voor de audiovisuele synchronisatietaak, naast de veelgebruikte audio cross-attention laag, stellen we een focus-by-predicting-strategie voor die het model impliciet begeleidt om audio te associëren met gezichtsregio's. Voor gezamenlijk leren van controleerbaarheid over multimodale invoer, voortbouwend op eerder verworven capaciteiten, incorporeren we progressief de audiovisuele synchronisatietaak. Tijdens inferentie ontwerpen we voor flexibele en fijnmazige multimodale controle een tijdadaptieve Classifier-Free Guidance-strategie die dynamisch de begeleidingsgewichten aanpast over de denoising-stappen. Uitgebreide experimentele resultaten tonen aan dat HuMo gespecialiseerde state-of-the-art-methoden in subtaken overtreft, en zo een uniform raamwerk vestigt voor collaboratieve multimodaal-geconditioneerde HCVG. Projectpagina: https://phantom-video.github.io/HuMo.
English
Human-Centric Video Generation (HCVG) methods seek to synthesize human videos
from multimodal inputs, including text, image, and audio. Existing methods
struggle to effectively coordinate these heterogeneous modalities due to two
challenges: the scarcity of training data with paired triplet conditions and
the difficulty of collaborating the sub-tasks of subject preservation and
audio-visual sync with multimodal inputs. In this work, we present HuMo, a
unified HCVG framework for collaborative multimodal control. For the first
challenge, we construct a high-quality dataset with diverse and paired text,
reference images, and audio. For the second challenge, we propose a two-stage
progressive multimodal training paradigm with task-specific strategies. For the
subject preservation task, to maintain the prompt following and visual
generation abilities of the foundation model, we adopt the minimal-invasive
image injection strategy. For the audio-visual sync task, besides the commonly
adopted audio cross-attention layer, we propose a focus-by-predicting strategy
that implicitly guides the model to associate audio with facial regions. For
joint learning of controllabilities across multimodal inputs, building on
previously acquired capabilities, we progressively incorporate the audio-visual
sync task. During inference, for flexible and fine-grained multimodal control,
we design a time-adaptive Classifier-Free Guidance strategy that dynamically
adjusts guidance weights across denoising steps. Extensive experimental results
demonstrate that HuMo surpasses specialized state-of-the-art methods in
sub-tasks, establishing a unified framework for collaborative
multimodal-conditioned HCVG. Project Page:
https://phantom-video.github.io/HuMo.