InterActHuman: Animação Humana de Múltiplos Conceitos com Condições de Áudio Alinhadas ao Layout
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
June 11, 2025
Autores: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin
cs.AI
Resumo
A animação humana de ponta a ponta com condições multimodais ricas, como texto, imagem e áudio, alcançou avanços notáveis nos últimos anos. No entanto, a maioria dos métodos existentes só consegue animar um único sujeito e injetar condições de maneira global, ignorando cenários em que múltiplos conceitos podem aparecer no mesmo vídeo com interações ricas entre humanos e entre humanos e objetos. Essa suposição global impede o controle preciso e por identidade de múltiplos conceitos, incluindo humanos e objetos, dificultando assim aplicações práticas. Neste trabalho, descartamos a suposição de entidade única e introduzimos uma nova estrutura que impõe uma vinculação forte e específica por região das condições das modalidades à pegada espaço-temporal de cada identidade. Dadas imagens de referência de múltiplos conceitos, nosso método pode inferir automaticamente informações de layout ao aproveitar um preditor de máscara para corresponder pistas de aparência entre o vídeo denoizado e cada aparência de referência. Além disso, injetamos a condição de áudio local em sua região correspondente para garantir o alinhamento de layout e a correspondência de modalidades de maneira iterativa. Esse design possibilita a geração de alta qualidade de vídeos centrados no humano com múltiplos conceitos controláveis. Resultados empíricos e estudos de ablação validam a eficácia do nosso controle explícito de layout para condições multimodais em comparação com abordagens implícitas e outros métodos existentes.
English
End-to-end human animation with rich multi-modal conditions, e.g., text,
image and audio has achieved remarkable advancements in recent years. However,
most existing methods could only animate a single subject and inject conditions
in a global manner, ignoring scenarios that multiple concepts could appears in
the same video with rich human-human interactions and human-object
interactions. Such global assumption prevents precise and per-identity control
of multiple concepts including humans and objects, therefore hinders
applications. In this work, we discard the single-entity assumption and
introduce a novel framework that enforces strong, region-specific binding of
conditions from modalities to each identity's spatiotemporal footprint. Given
reference images of multiple concepts, our method could automatically infer
layout information by leveraging a mask predictor to match appearance cues
between the denoised video and each reference appearance. Furthermore, we
inject local audio condition into its corresponding region to ensure
layout-aligned modality matching in a iterative manner. This design enables the
high-quality generation of controllable multi-concept human-centric videos.
Empirical results and ablation studies validate the effectiveness of our
explicit layout control for multi-modal conditions compared to implicit
counterparts and other existing methods.