ChatPaper.aiChatPaper

HOComp: Composição Humano-Objeto com Consciência de Interação

HOComp: Interaction-Aware Human-Object Composition

July 22, 2025
Autores: Dong Liang, Jinyuan Jia, Yuhao Liu, Rynson W. H. Lau
cs.AI

Resumo

Embora os métodos existentes de composição guiada por imagem possam ajudar a inserir um objeto em primeiro plano em uma região especificada pelo usuário de uma imagem de fundo, alcançando uma mesclagem natural dentro da região enquanto o restante da imagem permanece inalterado, observamos que esses métodos frequentemente enfrentam dificuldades na síntese de composições interação-conscientes e perfeitas quando a tarefa envolve interações humano-objeto. Neste artigo, propomos primeiro o HOComp, uma abordagem inovadora para compor um objeto em primeiro plano em uma imagem de fundo centrada no ser humano, garantindo interações harmoniosas entre o objeto em primeiro plano e a pessoa no fundo, bem como suas aparências consistentes. Nossa abordagem inclui dois designs principais: (1) Orientação de Pose Baseada em Região Dirigida por MLLMs (MRPG), que utiliza MLLMs para identificar a região de interação, bem como o tipo de interação (por exemplo, segurar e levantar), fornecendo restrições de grosseiras a refinadas para a pose gerada para a interação, enquanto incorpora marcos de pose humana para rastrear variações de ação e impor restrições de pose refinadas; e (2) Preservação de Aparência Consistente em Detalhes (DCAP), que unifica um mecanismo de modulação de atenção consciente da forma, uma perda de aparência multi-visão e uma perda de consistência de fundo para garantir formas/texturas consistentes do primeiro plano e reprodução fiel do ser humano no fundo. Em seguida, propomos o primeiro conjunto de dados, denominado Composição Humano-Objeto Consciente de Interação (IHOC), para a tarefa. Resultados experimentais em nosso conjunto de dados mostram que o HOComp gera efetivamente interações harmoniosas entre humanos e objetos com aparências consistentes, superando métodos relevantes qualitativa e quantitativamente.
English
While existing image-guided composition methods may help insert a foreground object onto a user-specified region of a background image, achieving natural blending inside the region with the rest of the image unchanged, we observe that these existing methods often struggle in synthesizing seamless interaction-aware compositions when the task involves human-object interactions. In this paper, we first propose HOComp, a novel approach for compositing a foreground object onto a human-centric background image, while ensuring harmonious interactions between the foreground object and the background person and their consistent appearances. Our approach includes two key designs: (1) MLLMs-driven Region-based Pose Guidance (MRPG), which utilizes MLLMs to identify the interaction region as well as the interaction type (e.g., holding and lefting) to provide coarse-to-fine constraints to the generated pose for the interaction while incorporating human pose landmarks to track action variations and enforcing fine-grained pose constraints; and (2) Detail-Consistent Appearance Preservation (DCAP), which unifies a shape-aware attention modulation mechanism, a multi-view appearance loss, and a background consistency loss to ensure consistent shapes/textures of the foreground and faithful reproduction of the background human. We then propose the first dataset, named Interaction-aware Human-Object Composition (IHOC), for the task. Experimental results on our dataset show that HOComp effectively generates harmonious human-object interactions with consistent appearances, and outperforms relevant methods qualitatively and quantitatively.
PDF123July 23, 2025