MultiBanana : Un benchmark exigeant pour la génération d'images à partir de texte avec références multiples

Résumé

Les modèles récents de génération d'image-à-texte ont acquis une capacité d'édition et de génération multi-références, permettant d'hériter l'apparence de sujets à partir de plusieurs images de référence et de les restituer dans de nouveaux contextes. Cependant, les ensembles de données de référence existants se concentrent souvent sur la génération avec une seule ou quelques images de référence, ce qui nous empêche de mesurer les progrès des performances des modèles ou d'identifier leurs faiblesses dans différentes conditions multi-références. De plus, leurs définitions de tâches restent floues, généralement limitées à des axes tels que "quoi éditer" ou "combien de références sont fournies", et échouent ainsi à capturer la difficulté intrinsèque des configurations multi-références. Pour combler cette lacune, nous présentons MultiBanana, conçu pour évaluer les limites des capacités des modèles en couvrant largement les problèmes spécifiques au multi-référence à grande échelle : (1) variation du nombre de références, (2) inadéquation de domaine entre les références (par exemple, photo contre anime), (3) inadéquation d'échelle entre les scènes de référence et cibles, (4) références contenant des concepts rares (par exemple, une banane rouge), et (5) références textuelles multilingues pour le rendu. Notre analyse d'une variété de modèles texte-à-image révèle leurs performances supérieures, leurs modes d'échec typiques et leurs domaines d'amélioration. MultiBanana sera publié comme benchmark ouvert pour repousser les frontières et établir une base standardisée de comparaison équitable en génération d'images multi-références. Nos données et code sont disponibles à l'adresse https://github.com/matsuolab/multibanana.

English

Recent text-to-image generation models have acquired the ability of multi-reference generation and editing; the ability to inherit the appearance of subjects from multiple reference images and re-render them under new contexts. However, the existing benchmark datasets often focus on the generation with single or a few reference images, which prevents us from measuring the progress on how model performance advances or pointing out their weaknesses, under different multi-reference conditions. In addition, their task definitions are still vague, typically limited to axes such as "what to edit" or "how many references are given", and therefore fail to capture the intrinsic difficulty of multi-reference settings. To address this gap, we introduce MultiBanana, which is carefully designed to assesses the edge of model capabilities by widely covering multi-reference-specific problems at scale: (1) varying the number of references, (2) domain mismatch among references (e.g., photo vs. anime), (3) scale mismatch between reference and target scenes, (4) references containing rare concepts (e.g., a red banana), and (5) multilingual textual references for rendering. Our analysis among a variety of text-to-image models reveals their superior performances, typical failure modes, and areas for improvement. MultiBanana will be released as an open benchmark to push the boundaries and establish a standardized basis for fair comparison in multi-reference image generation. Our data and code are available at https://github.com/matsuolab/multibanana .

MultiBanana : Un benchmark exigeant pour la génération d'images à partir de texte avec références multiples

MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

Résumé

Support