ChatPaper.aiChatPaper

HuMo: Generazione di Video Centrata sull'Umano tramite Condizionamento Multi-Modale Collaborativo

HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

September 10, 2025
Autori: Liyang Chen, Tianxiang Ma, Jiawei Liu, Bingchuan Li, Zhuowei Chen, Lijie Liu, Xu He, Gen Li, Qian He, Zhiyong Wu
cs.AI

Abstract

I metodi di Generazione di Video Centrati sull'Uomo (HCVG) mirano a sintetizzare video umani a partire da input multimodali, inclusi testo, immagini e audio. I metodi esistenti faticano a coordinare efficacemente queste modalità eterogenee a causa di due sfide principali: la scarsità di dati di formazione con condizioni triplette abbinate e la difficoltà di collaborare tra i sotto-compiti di preservazione del soggetto e sincronizzazione audio-visiva con input multimodali. In questo lavoro, presentiamo HuMo, un framework HCVG unificato per il controllo multimodale collaborativo. Per la prima sfida, abbiamo costruito un dataset di alta qualità con testo, immagini di riferimento e audio abbinate e diversificate. Per la seconda sfida, proponiamo un paradigma di formazione multimodale progressiva in due fasi con strategie specifiche per ciascun compito. Per il compito di preservazione del soggetto, per mantenere le capacità di seguire i prompt e di generazione visiva del modello di base, adottiamo una strategia di iniezione di immagini minimamente invasiva. Per il compito di sincronizzazione audio-visiva, oltre al comunemente adottato livello di cross-attention audio, proponiamo una strategia di focus-by-predicting che guida implicitamente il modello ad associare l'audio alle regioni facciali. Per l'apprendimento congiunto delle controllabilità attraverso input multimodali, basandoci sulle capacità precedentemente acquisite, incorporiamo progressivamente il compito di sincronizzazione audio-visiva. Durante l'inferenza, per un controllo multimodale flessibile e granulare, progettiamo una strategia di Classifier-Free Guidance adattiva nel tempo che regola dinamicamente i pesi di guida attraverso i passaggi di denoising. I risultati sperimentali estesi dimostrano che HuMo supera i metodi specializzati all'avanguardia nei sotto-compiti, stabilendo un framework unificato per la HCVG condizionata multimodale collaborativa. Pagina del progetto: https://phantom-video.github.io/HuMo.
English
Human-Centric Video Generation (HCVG) methods seek to synthesize human videos from multimodal inputs, including text, image, and audio. Existing methods struggle to effectively coordinate these heterogeneous modalities due to two challenges: the scarcity of training data with paired triplet conditions and the difficulty of collaborating the sub-tasks of subject preservation and audio-visual sync with multimodal inputs. In this work, we present HuMo, a unified HCVG framework for collaborative multimodal control. For the first challenge, we construct a high-quality dataset with diverse and paired text, reference images, and audio. For the second challenge, we propose a two-stage progressive multimodal training paradigm with task-specific strategies. For the subject preservation task, to maintain the prompt following and visual generation abilities of the foundation model, we adopt the minimal-invasive image injection strategy. For the audio-visual sync task, besides the commonly adopted audio cross-attention layer, we propose a focus-by-predicting strategy that implicitly guides the model to associate audio with facial regions. For joint learning of controllabilities across multimodal inputs, building on previously acquired capabilities, we progressively incorporate the audio-visual sync task. During inference, for flexible and fine-grained multimodal control, we design a time-adaptive Classifier-Free Guidance strategy that dynamically adjusts guidance weights across denoising steps. Extensive experimental results demonstrate that HuMo surpasses specialized state-of-the-art methods in sub-tasks, establishing a unified framework for collaborative multimodal-conditioned HCVG. Project Page: https://phantom-video.github.io/HuMo.
PDF1254September 12, 2025