MultiBind: Um Benchmark para Vinculação Incorreta de Atributos na Geração Multiassunto

Resumo

A geração de imagens orientada por sujeito é cada vez mais esperada para oferecer controlo de granularidade fina sobre múltiplas entidades numa única imagem. Em fluxos de trabalho com múltiplas referências, os utilizadores podem fornecer várias imagens de sujeitos, uma referência de fundo e instruções longas indexadas por entidade para controlar várias pessoas numa única cena. Neste contexto, um modo de falha crítico é a atribuição incorreta de atributos entre sujeitos: os atributos são preservados, editados ou transferidos para o sujeito errado. Os *benchmarks* e métricas existentes enfatizam maioritariamente a fidelidade holística ou a auto-semelhança por sujeito, tornando tais falhas difíceis de diagnosticar. Apresentamos o MultiBind, um *benchmark* construído a partir de fotografias reais de múltiplas pessoas. Cada instância fornece recortes de sujeitos ordenados por *slot* com máscaras e caixas delimitadoras, referências canónicas dos sujeitos, uma referência de fundo reconstituído e uma instrução densa indexada por entidade, derivada de anotações estruturadas. Propomos também um protocolo de avaliação de confusão dimensional que corresponde os sujeitos gerados aos *slots* de verdade fundamental e mede a semelhança entre *slots* usando especialistas para identidade facial, aparência, pose e expressão. Ao subtrair as matrizes de semelhança de verdade fundamental correspondentes, o nosso método separa a autodegradação da verdadeira interferência entre sujeitos e expõe padrões de falha interpretáveis, como deriva, troca, dominância e mistura. Experiências com geradores modernos de múltiplas referências mostram que o MultiBind revela falhas de vinculação que as métricas convencionais de reconstrução não detetam.

English

Subject-driven image generation is increasingly expected to support fine-grained control over multiple entities within a single image. In multi-reference workflows, users may provide several subject images, a background reference, and long, entity-indexed prompts to control multiple people within one scene. In this setting, a key failure mode is cross-subject attribute misbinding: attributes are preserved, edited, or transferred to the wrong subject. Existing benchmarks and metrics largely emphasize holistic fidelity or per-subject self-similarity, making such failures hard to diagnose. We introduce MultiBind, a benchmark built from real multi-person photographs. Each instance provides slot-ordered subject crops with masks and bounding boxes, canonicalized subject references, an inpainted background reference, and a dense entity-indexed prompt derived from structured annotations. We also propose a dimension-wise confusion evaluation protocol that matches generated subjects to ground-truth slots and measures slot-to-slot similarity using specialists for face identity, appearance, pose, and expression. By subtracting the corresponding ground-truth similarity matrices, our method separates self-degradation from true cross-subject interference and exposes interpretable failure patterns such as drift, swap, dominance, and blending. Experiments on modern multi-reference generators show that MultiBind reveals binding failures that conventional reconstruction metrics miss.

MultiBind: Um Benchmark para Vinculação Incorreta de Atributos na Geração Multiassunto

MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

Resumo

Support