ChatPaper.aiChatPaper

MultiBind: マルチサブジェクト生成における属性誤結合のベンチマーク

MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

March 23, 2026
著者: Wenqing Tian, Hanyi Mao, Zhaocheng Liu, Lihua Zhang, Qiang Liu, Jian Wu, Liang Wang
cs.AI

要旨

被駆動型画像生成において、単一画像内の複数エンティティに対する細粒度制御への期待が高まっている。マルチリファレンスワークフローでは、ユーザーが複数の被写体画像、背景リファレンス、およびエンティティ索引付きの詳細なプロンプトを提供し、1つのシーン内の複数人物を制御する場合がある。この設定において、主要な失敗モードは被写体間属性誤結合である。属性が保持、編集、または誤った被写体に転移される現象だ。既存のベンチマークと評価指標は全体的な忠実度や被写体単位の自己類似性を重視するため、こうした失敗の診断が困難である。我々は実写の複数人物写真から構築したベンチマーク「MultiBind」を提案する。各インスタンスは、スロット順序付けされた被写体切り抜き画像とマスク・バウンディングボックス、正規化された被写体リファレンス、修復された背景リファレンス、構造化アノテーションから導出された密なエンティティ索引付きプロンプトを提供する。さらに、生成された被写体をグラウンドトゥルースのスロットに対応付け、顔識別、外見、姿勢、表情の専門モデルを用いてスロット間類似度を測定する次元単位混同評価プロトコルを提案する。対応するグラウンドトゥルース類似度行列を差し引くことで、自己劣化と真の被写体間干渉を分離し、ドリフト、スワップ、支配、ブレンディングといった解釈可能な失敗パターンを可視化する。最新のマルチリファレンス生成器を用いた実験により、MultiBindが従来の再構成指標では検出できない結合失敗を明らかにすることを示す。
English
Subject-driven image generation is increasingly expected to support fine-grained control over multiple entities within a single image. In multi-reference workflows, users may provide several subject images, a background reference, and long, entity-indexed prompts to control multiple people within one scene. In this setting, a key failure mode is cross-subject attribute misbinding: attributes are preserved, edited, or transferred to the wrong subject. Existing benchmarks and metrics largely emphasize holistic fidelity or per-subject self-similarity, making such failures hard to diagnose. We introduce MultiBind, a benchmark built from real multi-person photographs. Each instance provides slot-ordered subject crops with masks and bounding boxes, canonicalized subject references, an inpainted background reference, and a dense entity-indexed prompt derived from structured annotations. We also propose a dimension-wise confusion evaluation protocol that matches generated subjects to ground-truth slots and measures slot-to-slot similarity using specialists for face identity, appearance, pose, and expression. By subtracting the corresponding ground-truth similarity matrices, our method separates self-degradation from true cross-subject interference and exposes interpretable failure patterns such as drift, swap, dominance, and blending. Experiments on modern multi-reference generators show that MultiBind reveals binding failures that conventional reconstruction metrics miss.
PDF51March 26, 2026