ChatPaper.aiChatPaper

HuMo: Geração de Vídeo Centrada no Humano via Condicionamento Multi-Modal Colaborativo

HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

September 10, 2025
Autores: Liyang Chen, Tianxiang Ma, Jiawei Liu, Bingchuan Li, Zhuowei Chen, Lijie Liu, Xu He, Gen Li, Qian He, Zhiyong Wu
cs.AI

Resumo

Os métodos de Geração de Vídeo Centrada no Humano (HCVG, na sigla em inglês) buscam sintetizar vídeos humanos a partir de entradas multimodais, incluindo texto, imagem e áudio. Os métodos existentes enfrentam dificuldades para coordenar efetivamente essas modalidades heterogêneas devido a dois desafios: a escassez de dados de treinamento com condições de tripla correspondência e a dificuldade de colaborar nas subtarefas de preservação do sujeito e sincronização áudio-visual com entradas multimodais. Neste trabalho, apresentamos o HuMo, um framework unificado de HCVG para controle multimodal colaborativo. Para o primeiro desafio, construímos um conjunto de dados de alta qualidade com texto, imagens de referência e áudio diversos e correspondentes. Para o segundo desafio, propomos um paradigma de treinamento multimodal progressivo em duas etapas com estratégias específicas para cada tarefa. Para a tarefa de preservação do sujeito, a fim de manter as habilidades de geração visual e de seguir instruções do modelo base, adotamos a estratégia de injeção de imagem minimamente invasiva. Para a tarefa de sincronização áudio-visual, além da camada de atenção cruzada de áudio comumente adotada, propomos uma estratégia de foco por previsão que guia implicitamente o modelo a associar o áudio com as regiões faciais. Para o aprendizado conjunto das controlabilidades entre as entradas multimodais, com base nas capacidades previamente adquiridas, incorporamos progressivamente a tarefa de sincronização áudio-visual. Durante a inferência, para um controle multimodal flexível e de granularidade fina, projetamos uma estratégia de Orientação Livre de Classificador adaptativa ao tempo que ajusta dinamicamente os pesos de orientação ao longo das etapas de redução de ruído. Resultados experimentais extensivos demonstram que o HuMo supera métodos especializados de ponta nas subtarefas, estabelecendo um framework unificado para HCVG condicionada multimodalmente de forma colaborativa. Página do Projeto: https://phantom-video.github.io/HuMo.
English
Human-Centric Video Generation (HCVG) methods seek to synthesize human videos from multimodal inputs, including text, image, and audio. Existing methods struggle to effectively coordinate these heterogeneous modalities due to two challenges: the scarcity of training data with paired triplet conditions and the difficulty of collaborating the sub-tasks of subject preservation and audio-visual sync with multimodal inputs. In this work, we present HuMo, a unified HCVG framework for collaborative multimodal control. For the first challenge, we construct a high-quality dataset with diverse and paired text, reference images, and audio. For the second challenge, we propose a two-stage progressive multimodal training paradigm with task-specific strategies. For the subject preservation task, to maintain the prompt following and visual generation abilities of the foundation model, we adopt the minimal-invasive image injection strategy. For the audio-visual sync task, besides the commonly adopted audio cross-attention layer, we propose a focus-by-predicting strategy that implicitly guides the model to associate audio with facial regions. For joint learning of controllabilities across multimodal inputs, building on previously acquired capabilities, we progressively incorporate the audio-visual sync task. During inference, for flexible and fine-grained multimodal control, we design a time-adaptive Classifier-Free Guidance strategy that dynamically adjusts guidance weights across denoising steps. Extensive experimental results demonstrate that HuMo surpasses specialized state-of-the-art methods in sub-tasks, establishing a unified framework for collaborative multimodal-conditioned HCVG. Project Page: https://phantom-video.github.io/HuMo.
PDF952September 12, 2025