MultiBanana: Ein anspruchsvoller Benchmark für Multi-Referenz-Text-zu-Bild-Generierung
MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation
November 28, 2025
Autoren: Yuta Oshima, Daiki Miyake, Kohsei Matsutani, Yusuke Iwasawa, Masahiro Suzuki, Yutaka Matsuo, Hiroki Furuta
cs.AI
Zusammenfassung
Aktuelle Text-zu-Bild-Generierungsmodelle haben die Fähigkeit zur Multi-Referenz-Generierung und -Bearbeitung erworben; die Fähigkeit, das Erscheinungsbild von Objekten aus mehreren Referenzbildern zu übernehmen und sie in neuen Kontexten neu darzustellen. Bestehende Benchmark-Datensätze konzentrieren sich jedoch oft auf die Generierung mit einzelnen oder wenigen Referenzbildern, was es uns unmöglich macht, den Fortschritt der Modellleistung unter verschiedenen Multi-Referenz-Bedingungen zu messen oder deren Schwächen aufzuzeigen. Darüber hinaus sind ihre Aufgabenstellungen nach wie vor vage, typischerweise beschränkt auf Achsen wie "was bearbeitet werden soll" oder "wie viele Referenzen gegeben sind", und erfassen daher nicht die intrinsische Schwierigkeit von Multi-Referenz-Szenarien. Um diese Lücke zu schließen, führen wir MultiBanana ein, das sorgfältig entwickelt wurde, um die Grenzen der Modellfähigkeiten zu bewerten, indem es multi-referenzspezifische Probleme umfassend und in großem Maßstab abdeckt: (1) Variation der Anzahl der Referenzen, (2) Domäneninkongruenz zwischen den Referenzen (z.B. Foto vs. Anime), (3) Skaleninkongruenz zwischen Referenz- und Zielszene, (4) Referenzen mit seltenen Konzepten (z.B. eine rote Banane) und (5) mehrsprachige textuelle Referenzen für die Darstellung. Unsere Analyse einer Vielzahl von Text-zu-Bild-Modellen zeigt deren überlegene Leistungen, typische Fehlermodi und Verbesserungspotenziale auf. MultiBanana wird als Open Benchmark veröffentlicht, um die Grenzen zu erweitern und eine standardisierte Grundlage für einen fairen Vergleich in der Multi-Referenz-Bildgenerierung zu schaffen. Unsere Daten und unser Code sind verfügbar unter https://github.com/matsuolab/multibanana.
English
Recent text-to-image generation models have acquired the ability of multi-reference generation and editing; the ability to inherit the appearance of subjects from multiple reference images and re-render them under new contexts. However, the existing benchmark datasets often focus on the generation with single or a few reference images, which prevents us from measuring the progress on how model performance advances or pointing out their weaknesses, under different multi-reference conditions. In addition, their task definitions are still vague, typically limited to axes such as "what to edit" or "how many references are given", and therefore fail to capture the intrinsic difficulty of multi-reference settings. To address this gap, we introduce MultiBanana, which is carefully designed to assesses the edge of model capabilities by widely covering multi-reference-specific problems at scale: (1) varying the number of references, (2) domain mismatch among references (e.g., photo vs. anime), (3) scale mismatch between reference and target scenes, (4) references containing rare concepts (e.g., a red banana), and (5) multilingual textual references for rendering. Our analysis among a variety of text-to-image models reveals their superior performances, typical failure modes, and areas for improvement. MultiBanana will be released as an open benchmark to push the boundaries and establish a standardized basis for fair comparison in multi-reference image generation. Our data and code are available at https://github.com/matsuolab/multibanana .