MultiBind: Een benchmark voor attribuutverwisseling bij generatie van meerdere objecten

Samenvatting

Onderwerpgestuurde beeldgeneratie wordt steeds meer verwacht fijnmuntige controle over meerdere entiteiten binnen één afbeelding te ondersteunen. In multi-referentieworkflows kunnen gebruikers verschillende onderwerpafbeeldingen, een achtergrondreferentie en lange, geïndexeerde prompts voor entiteiten aanleveren om meerdere personen in één scène te besturen. In deze setting is cross-subject attribute misbinding een belangrijke faalmodus: attributen worden behouden, bewerkt of overgedragen naar het verkeerde onderwerp. Bestaande benchmarks en metrieken leggen grotendeels de nadruk op holistische trouw of zelfgelijkenis per onderwerp, waardoor dergelijke fouten moeilijk te diagnosticeren zijn. Wij introduceren MultiBind, een benchmark opgebouwd uit echte foto's van meerdere personen. Elke instantie biedt subjectafbeeldingen geordend in slots met maskers en begrenzingskaders, gestandaardiseerde onderwerpreferenties, een ingevulde achtergrondreferentie en een dense, op entiteiten geïndexeerde prompt afgeleid van gestructureerde annotaties. Wij stellen ook een dimension-wise confusion evaluatieprotocol voor dat gegenereerde onderwerpen matcht met grond-waarheidsslots en slot-naar-slot gelijkenis meet met behulp van specialisten voor gezichtsidentiteit, uiterlijk, houding en expressie. Door de corresponderende grond-waarheidsgelijkenismatrices af te trekken, scheidt onze methode zelfdegradatie van echte cross-subject interferentie en legt het interpreteerbare faalpatronen bloot zoals drift, verwisseling, dominantie en vermenging. Experimenten met moderne multi-referentiegeneratoren tonen aan dat MultiBind bindingsfouten onthult die conventionele reconstructiemetrieken missen.

English

Subject-driven image generation is increasingly expected to support fine-grained control over multiple entities within a single image. In multi-reference workflows, users may provide several subject images, a background reference, and long, entity-indexed prompts to control multiple people within one scene. In this setting, a key failure mode is cross-subject attribute misbinding: attributes are preserved, edited, or transferred to the wrong subject. Existing benchmarks and metrics largely emphasize holistic fidelity or per-subject self-similarity, making such failures hard to diagnose. We introduce MultiBind, a benchmark built from real multi-person photographs. Each instance provides slot-ordered subject crops with masks and bounding boxes, canonicalized subject references, an inpainted background reference, and a dense entity-indexed prompt derived from structured annotations. We also propose a dimension-wise confusion evaluation protocol that matches generated subjects to ground-truth slots and measures slot-to-slot similarity using specialists for face identity, appearance, pose, and expression. By subtracting the corresponding ground-truth similarity matrices, our method separates self-degradation from true cross-subject interference and exposes interpretable failure patterns such as drift, swap, dominance, and blending. Experiments on modern multi-reference generators show that MultiBind reveals binding failures that conventional reconstruction metrics miss.

MultiBind: Een benchmark voor attribuutverwisseling bij generatie van meerdere objecten

MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

Samenvatting

Support