MultiBanana: Een Uitdagende Benchmark voor Multi-Referentie Tekst-naar-Beeld Generatie
MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation
November 28, 2025
Auteurs: Yuta Oshima, Daiki Miyake, Kohsei Matsutani, Yusuke Iwasawa, Masahiro Suzuki, Yutaka Matsuo, Hiroki Furuta
cs.AI
Samenvatting
Recente tekst-naar-beeldgeneratiemodellen hebben het vermogen verworven voor multireferentiegeneratie en -bewerking: de mogelijkheid om het uiterlijk van onderwerpen uit meerdere referentiebeelden over te nemen en opnieuw weer te geven in nieuwe contexten. Bestaande benchmarkdatasets richten zich echter vaak op generatie met één of enkele referentiebeelden, wat het meten van de voortgang in modelprestaties of het aanwijzen van zwakke punten onder verschillende multireferentieomstandigheden belemmert. Bovendien zijn hun taakdefinities nog vaag, meestal beperkt tot assen zoals "wat te bewerken" of "hoeveel referenties worden gegeven", en slagen ze er daardoor niet in de intrinsieke moeilijkheidsgraad van multireferentie-instellingen vast te leggen. Om deze kloof te dichten, introduceren we MultiBanana, een benchmark die zorgvuldig is ontworpen om de grenzen van modelcapaciteiten te evalueren door op grote schaal multireferentie-specifieke problemen te dekken: (1) variërend aantal referenties, (2) domeinonverenigbaarheid tussen referenties (bijv. foto versus anime), (3) schaalverschil tussen referentie- en doelscènes, (4) referenties met zeldzame concepten (bijv. een rode banaan), en (5) meertalige tekstuele referenties voor weergave. Onze analyse van diverse tekst-naar-beeldmodellen onthult hun superieure prestaties, typische faalwijzen en verbeterpunten. MultiBanana wordt vrijgegeven als open benchmark om de grenzen te verleggen en een gestandaardiseerde basis te vormen voor eerlijke vergelijking in multireferentiebeeldgeneratie. Onze data en code zijn beschikbaar op https://github.com/matsuolab/multibanana.
English
Recent text-to-image generation models have acquired the ability of multi-reference generation and editing; the ability to inherit the appearance of subjects from multiple reference images and re-render them under new contexts. However, the existing benchmark datasets often focus on the generation with single or a few reference images, which prevents us from measuring the progress on how model performance advances or pointing out their weaknesses, under different multi-reference conditions. In addition, their task definitions are still vague, typically limited to axes such as "what to edit" or "how many references are given", and therefore fail to capture the intrinsic difficulty of multi-reference settings. To address this gap, we introduce MultiBanana, which is carefully designed to assesses the edge of model capabilities by widely covering multi-reference-specific problems at scale: (1) varying the number of references, (2) domain mismatch among references (e.g., photo vs. anime), (3) scale mismatch between reference and target scenes, (4) references containing rare concepts (e.g., a red banana), and (5) multilingual textual references for rendering. Our analysis among a variety of text-to-image models reveals their superior performances, typical failure modes, and areas for improvement. MultiBanana will be released as an open benchmark to push the boundaries and establish a standardized basis for fair comparison in multi-reference image generation. Our data and code are available at https://github.com/matsuolab/multibanana .