ChatPaper.aiChatPaper

MultiBind: 다중 대상 생성에서 속성 오바인딩 평가를 위한 벤치마크

MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

March 23, 2026
저자: Wenqing Tian, Hanyi Mao, Zhaocheng Liu, Lihua Zhang, Qiang Liu, Jian Wu, Liang Wang
cs.AI

초록

주체 기반 이미지 생성은 단일 이미지 내 여러 개체에 대한 세밀한 제어를 지원할 것으로 점차 기대되고 있습니다. 다중 참조 워크플로우에서는 사용자가 여러 장의 주체 이미지, 배경 참조, 그리고 장면 내 여러 인물을 제어하기 위한 개체 인덱스가 달린 긴 프롬프트를 제공할 수 있습니다. 이러한 환경에서 주요 실패 모드는 교차-주체 속성 오류 바인딩입니다. 즉, 속성이 보존, 편집 또는 잘못된 주체로 전이되는 현상을 의미합니다. 기존 벤치마크와 지표는 전체적 충실도나 주체별 자기 유사성에 주로 중점을 두어 이러한 실패를 진단하기 어렵게 만듭니다. 우리는 실제 다중 인물 사진으로 구성된 MultiBind 벤치마크를 소개합니다. 각 인스턴스는 마스크와 바운딩 박스가 포함된 슬롯 정렬 주체 크롭, 표준화된 주체 참조, 인페인팅된 배경 참조, 그리고 구조화된 주석에서 도출된 밀집 개체 인덱스 프롬프트를 제공합니다. 또한 생성된 주체를 실제 슬롯에 매칭하고 얼굴 신원, 외관, 자세, 표정별 전문 평가자를 사용하여 슬롯 간 유사성을 측정하는 차원별 혼동 평가 프로토콜을 제안합니다. 해당하는 실제 유사도 행렬을 차감함으로써 우리의 방법은 자기 성능 저하와 진정한 교차-주체 간섭을 분리하며 드리프트, 스왑, 우세, 블렌딩과 같은 해석 가능한 실패 패턴을 드러냅니다. 최신 다중 참조 생성기에 대한 실험 결과, MultiBind가 기존 재구성 지표가 놓치는 바인딩 실패를 효과적으로 포착함을 확인했습니다.
English
Subject-driven image generation is increasingly expected to support fine-grained control over multiple entities within a single image. In multi-reference workflows, users may provide several subject images, a background reference, and long, entity-indexed prompts to control multiple people within one scene. In this setting, a key failure mode is cross-subject attribute misbinding: attributes are preserved, edited, or transferred to the wrong subject. Existing benchmarks and metrics largely emphasize holistic fidelity or per-subject self-similarity, making such failures hard to diagnose. We introduce MultiBind, a benchmark built from real multi-person photographs. Each instance provides slot-ordered subject crops with masks and bounding boxes, canonicalized subject references, an inpainted background reference, and a dense entity-indexed prompt derived from structured annotations. We also propose a dimension-wise confusion evaluation protocol that matches generated subjects to ground-truth slots and measures slot-to-slot similarity using specialists for face identity, appearance, pose, and expression. By subtracting the corresponding ground-truth similarity matrices, our method separates self-degradation from true cross-subject interference and exposes interpretable failure patterns such as drift, swap, dominance, and blending. Experiments on modern multi-reference generators show that MultiBind reveals binding failures that conventional reconstruction metrics miss.
PDF51March 26, 2026