OmniShow: Unificação de Condições Multimodais para Geração de Vídeos de Interação Humano-Objeto

Resumo

Neste trabalho, estudamos a Geração de Vídeos de Interação Humano-Objeto (HOIVG), que visa sintetizar vídeos de alta qualidade de interações humano-objeto condicionados por texto, imagens de referência, áudio e pose. Esta tarefa possui um valor prático significativo para a automação da criação de conteúdo em aplicações do mundo real, como demonstrações de e-commerce, produção de vídeos curtos e entretenimento interativo. No entanto, as abordagens existentes não conseguem acomodar todas essas condições necessárias. Apresentamos o OmniShow, uma estrutura end-to-end desenvolvida para esta tarefa prática mas desafiadora, capaz de harmonizar condições multimodais e oferecer desempenho de nível industrial. Para superar o compromisso entre controlabilidade e qualidade, introduzimos o Condicionamento Unificado por Canal para injeção eficiente de imagem e pose, e a Atenção com Porta para Contexto Local para garantir uma sincronização áudio-visual precisa. Para abordar eficazmente a escassez de dados, desenvolvemos uma estratégia de Treinamento Desacoplado-e-Depois-Conjunto que aproveita um processo de treinamento multiestágio com fusão de modelos para utilizar eficientemente conjuntos de dados heterogéneos de subtarefas. Adicionalmente, para preencher a lacuna de avaliação neste campo, estabelecemos o HOIVG-Bench, um benchmark dedicado e abrangente para HOIVG. Experimentos extensivos demonstram que o OmniShow alcança um desempenho geral state-of-the-art em várias configurações de condicionamento multimodal, estabelecendo um padrão sólido para a emergente tarefa de HOIVG.

English

In this work, we study Human-Object Interaction Video Generation (HOIVG), which aims to synthesize high-quality human-object interaction videos conditioned on text, reference images, audio, and pose. This task holds significant practical value for automating content creation in real-world applications, such as e-commerce demonstrations, short video production, and interactive entertainment. However, existing approaches fail to accommodate all these requisite conditions. We present OmniShow, an end-to-end framework tailored for this practical yet challenging task, capable of harmonizing multimodal conditions and delivering industry-grade performance. To overcome the trade-off between controllability and quality, we introduce Unified Channel-wise Conditioning for efficient image and pose injection, and Gated Local-Context Attention to ensure precise audio-visual synchronization. To effectively address data scarcity, we develop a Decoupled-Then-Joint Training strategy that leverages a multi-stage training process with model merging to efficiently harness heterogeneous sub-task datasets. Furthermore, to fill the evaluation gap in this field, we establish HOIVG-Bench, a dedicated and comprehensive benchmark for HOIVG. Extensive experiments demonstrate that OmniShow achieves overall state-of-the-art performance across various multimodal conditioning settings, setting a solid standard for the emerging HOIVG task.

OmniShow: Unificação de Condições Multimodais para Geração de Vídeos de Interação Humano-Objeto

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Resumo

Support