HOComp: 상호작용 인식 기반 인간-객체 구성
HOComp: Interaction-Aware Human-Object Composition
July 22, 2025
저자: Dong Liang, Jinyuan Jia, Yuhao Liu, Rynson W. H. Lau
cs.AI
초록
기존의 이미지 기반 합성 방법들은 사용자가 지정한 배경 이미지 영역에 전경 객체를 삽입하고, 해당 영역 내부를 자연스럽게 혼합하면서 나머지 이미지는 변경하지 않는 데 도움을 줄 수 있지만, 인간-객체 상호작용이 포함된 작업에서 원활한 상호작용 인지 합성을 생성하는 데 어려움을 겪는 경우가 많다는 것을 관찰했습니다. 본 논문에서는 먼저 HOComp를 제안합니다. 이는 인간 중심의 배경 이미지에 전경 객체를 합성하면서 전경 객체와 배경 속 사람 간의 조화로운 상호작용과 일관된 외관을 보장하는 새로운 접근법입니다. 우리의 접근법은 두 가지 주요 설계를 포함합니다: (1) MLLMs 기반 영역별 포즈 가이던스(MRPG)는 MLLMs를 활용하여 상호작용 영역과 상호작용 유형(예: 들기, 올리기)을 식별하고, 인간 포즈 랜드마크를 통합하여 동작 변화를 추적하며 세밀한 포즈 제약을 적용하여 상호작용을 위한 포즈를 거친 단계에서 세밀한 단계까지 제약을 제공합니다. (2) 세부 일관성 외관 보존(DCAP)은 형태 인지 주의 조절 메커니즘, 다중 시각 외관 손실, 배경 일관성 손실을 통합하여 전경의 일관된 형태/질감과 배경 속 인간의 충실한 재현을 보장합니다. 또한, 이 작업을 위해 상호작용 인지 인간-객체 합성(IHOC)이라는 첫 번째 데이터셋을 제안합니다. 우리의 데이터셋에 대한 실험 결과는 HOComp가 일관된 외관과 함께 조화로운 인간-객체 상호작용을 효과적으로 생성하며, 관련 방법들을 질적 및 양적으로 능가함을 보여줍니다.
English
While existing image-guided composition methods may help insert a foreground
object onto a user-specified region of a background image, achieving natural
blending inside the region with the rest of the image unchanged, we observe
that these existing methods often struggle in synthesizing seamless
interaction-aware compositions when the task involves human-object
interactions. In this paper, we first propose HOComp, a novel approach for
compositing a foreground object onto a human-centric background image, while
ensuring harmonious interactions between the foreground object and the
background person and their consistent appearances. Our approach includes two
key designs: (1) MLLMs-driven Region-based Pose Guidance (MRPG), which utilizes
MLLMs to identify the interaction region as well as the interaction type (e.g.,
holding and lefting) to provide coarse-to-fine constraints to the generated
pose for the interaction while incorporating human pose landmarks to track
action variations and enforcing fine-grained pose constraints; and (2)
Detail-Consistent Appearance Preservation (DCAP), which unifies a shape-aware
attention modulation mechanism, a multi-view appearance loss, and a background
consistency loss to ensure consistent shapes/textures of the foreground and
faithful reproduction of the background human. We then propose the first
dataset, named Interaction-aware Human-Object Composition (IHOC), for the task.
Experimental results on our dataset show that HOComp effectively generates
harmonious human-object interactions with consistent appearances, and
outperforms relevant methods qualitatively and quantitatively.