MultiBind: Un punto de referencia para la vinculación incorrecta de atributos en la generación multi-sujeto

Resumen

La generación de imágenes guiada por sujetos se espera cada vez más que permita un control detallado sobre múltiples entidades dentro de una sola imagen. En los flujos de trabajo multirreferencia, los usuarios pueden proporcionar varias imágenes de sujetos, una referencia de fondo y prompts largos indexados por entidad para controlar a varias personas dentro de una escena. En este contexto, un modo de fallo clave es la vinculación incorrecta de atributos entre sujetos: los atributos se conservan, editan o transfieren al sujeto equivocado. Los puntos de referencia y las métricas existentes enfatizan en gran medida la fidelidad holística o la auto-similitud por sujeto, lo que dificulta diagnosticar tales fallos. Presentamos MultiBind, un punto de referencia construido a partir de fotografías reales de múltiples personas. Cada instancia proporciona recortes de sujetos ordenados por espacios con máscaras y cuadros delimitadores, referencias de sujetos canonizadas, una referencia de fondo inpintado y un prompt denso indexado por entidad derivado de anotaciones estructuradas. También proponemos un protocolo de evaluación de confusión dimensional que empareja los sujetos generados con los espacios de la verdad fundamental y mide la similitud de espacio a espacio utilizando especialistas para la identidad facial, la apariencia, la pose y la expresión. Al restar las matrices de similitud de la verdad fundamental correspondientes, nuestro método separa la autodegradación de la verdadera interferencia entre sujetos y expone patrones de fallo interpretables como deriva, intercambio, dominancia y mezcla. Los experimentos con generadores multirreferencia modernos muestran que MultiBind revela fallos de vinculación que las métricas de reconstrucción convencionales pasan por alto.

English

Subject-driven image generation is increasingly expected to support fine-grained control over multiple entities within a single image. In multi-reference workflows, users may provide several subject images, a background reference, and long, entity-indexed prompts to control multiple people within one scene. In this setting, a key failure mode is cross-subject attribute misbinding: attributes are preserved, edited, or transferred to the wrong subject. Existing benchmarks and metrics largely emphasize holistic fidelity or per-subject self-similarity, making such failures hard to diagnose. We introduce MultiBind, a benchmark built from real multi-person photographs. Each instance provides slot-ordered subject crops with masks and bounding boxes, canonicalized subject references, an inpainted background reference, and a dense entity-indexed prompt derived from structured annotations. We also propose a dimension-wise confusion evaluation protocol that matches generated subjects to ground-truth slots and measures slot-to-slot similarity using specialists for face identity, appearance, pose, and expression. By subtracting the corresponding ground-truth similarity matrices, our method separates self-degradation from true cross-subject interference and exposes interpretable failure patterns such as drift, swap, dominance, and blending. Experiments on modern multi-reference generators show that MultiBind reveals binding failures that conventional reconstruction metrics miss.

MultiBind: Un punto de referencia para la vinculación incorrecta de atributos en la generación multi-sujeto

MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

Resumen

Support