MultiBind : Un benchmark pour l'erreur d'attribution dans la génération multi-sujets

Résumé

La génération d'images pilotée par sujet est de plus en plus censée permettre un contrôle granulaire sur plusieurs entités au sein d'une seule image. Dans les workflows multi-références, les utilisateurs peuvent fournir plusieurs images de sujets, une référence d'arrière-plan et des instructions textuelles longues et indexées par entité pour contrôler plusieurs personnes dans une même scène. Dans ce contexte, un mode d'échec majeur est le mauvais liage d'attributs inter-sujets : les attributs sont préservés, modifiés ou transférés vers le mauvais sujet. Les benchmarks et métriques existants mettent largement l'accent sur la fidélité holistique ou l'auto-similarité par sujet, rendant ces échecs difficiles à diagnostiquer. Nous présentons MultiBind, un benchmark construit à partir de photographies réelles de groupes de personnes. Chaque instance fournit des rognages de sujets ordonnés par emplacement avec masques et boîtes englobantes, des références de sujets canonisées, une référence d'arrière-plan inpaintée et une instruction textuelle dense indexée par entité, dérivée d'annotations structurées. Nous proposons également un protocole d'évaluation par confusion dimensionnelle qui apparie les sujets générés aux emplacements de vérité terrain et mesure la similarité d'emplacement à emplacement en utilisant des modèles spécialisés pour l'identité faciale, l'apparence, la pose et l'expression. En soustrayant les matrices de similarité de vérité terrain correspondantes, notre méthode distingue l'auto-dégradation de la véritable interférence inter-sujets et expose des schémas d'échec interprétables tels que la dérive, l'échange, la dominance et le mélange. Les expériences sur les générateurs multi-références modernes montrent que MultiBind révèle des échecs de liage que les métriques de reconstruction conventionnelles ne détectent pas.

English

Subject-driven image generation is increasingly expected to support fine-grained control over multiple entities within a single image. In multi-reference workflows, users may provide several subject images, a background reference, and long, entity-indexed prompts to control multiple people within one scene. In this setting, a key failure mode is cross-subject attribute misbinding: attributes are preserved, edited, or transferred to the wrong subject. Existing benchmarks and metrics largely emphasize holistic fidelity or per-subject self-similarity, making such failures hard to diagnose. We introduce MultiBind, a benchmark built from real multi-person photographs. Each instance provides slot-ordered subject crops with masks and bounding boxes, canonicalized subject references, an inpainted background reference, and a dense entity-indexed prompt derived from structured annotations. We also propose a dimension-wise confusion evaluation protocol that matches generated subjects to ground-truth slots and measures slot-to-slot similarity using specialists for face identity, appearance, pose, and expression. By subtracting the corresponding ground-truth similarity matrices, our method separates self-degradation from true cross-subject interference and exposes interpretable failure patterns such as drift, swap, dominance, and blending. Experiments on modern multi-reference generators show that MultiBind reveals binding failures that conventional reconstruction metrics miss.

MultiBind : Un benchmark pour l'erreur d'attribution dans la génération multi-sujets

MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

Résumé

Support