MultiBind: Ein Benchmark für Attributfehlbindungen bei der Mehrfachsubjektgenerierung

Zusammenfassung

Subjektgesteuerte Bildgenerierung soll zunehmend eine feinkörnige Steuerung mehrerer Entitäten innerhalb eines einzelnen Bildes ermöglichen. In Multi-Referenz-Workflows können Benutzer mehrere Subjektbilder, eine Hintergrundreferenz und lange, entitätsindexierte Prompts bereitstellen, um mehrere Personen in einer Szene zu steuern. In diesem Szenario ist eine zentrale Fehlerart die fächerübergreifende Attributfehlbindung: Attribute werden erhalten, bearbeitet oder auf das falsche Subjekt übertragen. Bestehende Benchmarks und Metriken betonen weitgehend holistische Treue oder Subjekt-selbst-Ähnlichkeit, was solche Fehler schwer diagnostizierbar macht. Wir stellen MultiBind vor, einen Benchmark, der auf realen Mehrpersonenfotografien basiert. Jede Instanz bietet slot-geordnete Subjektausschnitte mit Masken und Begrenzungsrahmen, kanonisierte Subjektreferenzen, einen eingefärbten Hintergrundreferenz und einen dichten, entitätsindexierten Prompt, der aus strukturierten Annotationen abgeleitet ist. Wir schlagen zudem ein dimensionsweises Konfusionsbewertungsprotokoll vor, das generierte Subjekte Ground-Truth-Slots zuordnet und Slot-zu-Slot-Ähnlichkeit unter Verwendung von Spezialisten für Gesichtsidentität, Erscheinungsbild, Pose und Ausdruck misst. Durch Subtraktion der entsprechenden Ground-Truth-Ähnlichkeitsmatrizen trennt unsere Methode Selbstdegradation von echter fächerübergreifender Interferenz und legt interpretierbare Fehlermuster wie Drift, Austausch, Dominanz und Vermischung offen. Experimente mit modernen Multi-Referenz-Generatoren zeigen, dass MultiBind Bindungsfehler aufdeckt, die konventionelle Rekonstruktionsmetriken übersehen.

English

Subject-driven image generation is increasingly expected to support fine-grained control over multiple entities within a single image. In multi-reference workflows, users may provide several subject images, a background reference, and long, entity-indexed prompts to control multiple people within one scene. In this setting, a key failure mode is cross-subject attribute misbinding: attributes are preserved, edited, or transferred to the wrong subject. Existing benchmarks and metrics largely emphasize holistic fidelity or per-subject self-similarity, making such failures hard to diagnose. We introduce MultiBind, a benchmark built from real multi-person photographs. Each instance provides slot-ordered subject crops with masks and bounding boxes, canonicalized subject references, an inpainted background reference, and a dense entity-indexed prompt derived from structured annotations. We also propose a dimension-wise confusion evaluation protocol that matches generated subjects to ground-truth slots and measures slot-to-slot similarity using specialists for face identity, appearance, pose, and expression. By subtracting the corresponding ground-truth similarity matrices, our method separates self-degradation from true cross-subject interference and exposes interpretable failure patterns such as drift, swap, dominance, and blending. Experiments on modern multi-reference generators show that MultiBind reveals binding failures that conventional reconstruction metrics miss.

MultiBind: Ein Benchmark für Attributfehlbindungen bei der Mehrfachsubjektgenerierung

MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

Zusammenfassung

Support