HuMo: Генерация видео с фокусом на человеке через совместное мультимодальное кондиционирование
HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning
September 10, 2025
Авторы: Liyang Chen, Tianxiang Ma, Jiawei Liu, Bingchuan Li, Zhuowei Chen, Lijie Liu, Xu He, Gen Li, Qian He, Zhiyong Wu
cs.AI
Аннотация
Методы генерации видео с фокусом на человеке (Human-Centric Video Generation, HCVG) направлены на синтез видео с участием людей на основе мультимодальных входных данных, включая текст, изображения и аудио. Существующие подходы сталкиваются с трудностями в эффективной координации этих разнородных модальностей из-за двух основных проблем: недостатка обучающих данных с парными тройными условиями и сложности согласования подзадач сохранения объекта и синхронизации аудио и видео при работе с мультимодальными входами. В данной работе мы представляем HuMo — унифицированную структуру HCVG для совместного мультимодального управления. Для решения первой проблемы мы создали высококачественный набор данных с разнообразными и парными текстами, эталонными изображениями и аудио. Для второй проблемы мы предлагаем двухэтапную прогрессивную парадигму обучения с мультимодальными данными, включающую стратегии, специфичные для каждой задачи. Для задачи сохранения объекта, чтобы сохранить способность базовой модели следовать подсказкам и генерировать визуальные данные, мы применяем минимально инвазивную стратегию внедрения изображений. Для задачи синхронизации аудио и видео, помимо широко используемого слоя кросс-внимания для аудио, мы предлагаем стратегию "фокусировка через предсказание", которая неявно направляет модель на ассоциацию аудио с лицевыми областями. Для совместного обучения управляемости на основе мультимодальных входов, опираясь на ранее приобретенные способности, мы постепенно включаем задачу синхронизации аудио и видео. На этапе вывода для гибкого и детализированного мультимодального управления мы разработали временно-адаптивную стратегию Classifier-Free Guidance, которая динамически регулирует веса управления на разных этапах удаления шума. Результаты многочисленных экспериментов показывают, что HuMo превосходит специализированные современные методы в подзадачах, устанавливая унифицированную структуру для совместной генерации видео с условиями на основе мультимодальных данных. Страница проекта: https://phantom-video.github.io/HuMo.
English
Human-Centric Video Generation (HCVG) methods seek to synthesize human videos
from multimodal inputs, including text, image, and audio. Existing methods
struggle to effectively coordinate these heterogeneous modalities due to two
challenges: the scarcity of training data with paired triplet conditions and
the difficulty of collaborating the sub-tasks of subject preservation and
audio-visual sync with multimodal inputs. In this work, we present HuMo, a
unified HCVG framework for collaborative multimodal control. For the first
challenge, we construct a high-quality dataset with diverse and paired text,
reference images, and audio. For the second challenge, we propose a two-stage
progressive multimodal training paradigm with task-specific strategies. For the
subject preservation task, to maintain the prompt following and visual
generation abilities of the foundation model, we adopt the minimal-invasive
image injection strategy. For the audio-visual sync task, besides the commonly
adopted audio cross-attention layer, we propose a focus-by-predicting strategy
that implicitly guides the model to associate audio with facial regions. For
joint learning of controllabilities across multimodal inputs, building on
previously acquired capabilities, we progressively incorporate the audio-visual
sync task. During inference, for flexible and fine-grained multimodal control,
we design a time-adaptive Classifier-Free Guidance strategy that dynamically
adjusts guidance weights across denoising steps. Extensive experimental results
demonstrate that HuMo surpasses specialized state-of-the-art methods in
sub-tasks, establishing a unified framework for collaborative
multimodal-conditioned HCVG. Project Page:
https://phantom-video.github.io/HuMo.