MultiBanana: un benchmark impegnativo per la generazione di immagini da testo con riferimenti multipli
MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation
November 28, 2025
Autori: Yuta Oshima, Daiki Miyake, Kohsei Matsutani, Yusuke Iwasawa, Masahiro Suzuki, Yutaka Matsuo, Hiroki Furuta
cs.AI
Abstract
I recenti modelli di generazione testo-immagine hanno acquisito la capacità di generazione e modifica multi-riferimento, ossia l'abilità di ereditare l'aspetto di soggetti da più immagini di riferimento e di renderizzarli nuovamente in nuovi contesti. Tuttavia, i dataset di benchmark esistenti si concentrano spesso sulla generazione con una singola o poche immagini di riferimento, il che impedisce di misurare i progressi delle prestazioni dei modelli o di individuarne le debolezze in diverse condizioni multi-riferimento. Inoltre, le loro definizioni di compito rimangono vaghe, tipicamente limitate ad assi come "cosa modificare" o "quanti riferimenti sono forniti", e quindi non riescono a cogliere la difficoltà intrinseca delle impostazioni multi-riferimento.
Per colmare questa lacuna, introduciamo MultiBanana, progettato attentamente per valutare i limiti delle capacità dei modelli coprendo ampiamente problemi specifici del multi-riferimento su larga scala: (1) variazione del numero di riferimenti, (2) disallineamento di dominio tra i riferimenti (es. foto vs. anime), (3) disallineamento di scala tra le scene di riferimento e target, (4) riferimenti contenenti concetti rari (es. una banana rossa), e (5) riferimenti testuali multilingue per il rendering.
La nostra analisi condotta su una varietà di modelli testo-immagine ne rivela le prestazioni superiori, le tipiche modalità di fallimento e le aree di miglioramento. MultiBanana sarà rilasciato come benchmark aperto per spingere i confini e stabilire una base standardizzata per un confronto equo nella generazione di immagini multi-riferimento. I nostri dati e codice sono disponibili su https://github.com/matsuolab/multibanana.
English
Recent text-to-image generation models have acquired the ability of multi-reference generation and editing; the ability to inherit the appearance of subjects from multiple reference images and re-render them under new contexts. However, the existing benchmark datasets often focus on the generation with single or a few reference images, which prevents us from measuring the progress on how model performance advances or pointing out their weaknesses, under different multi-reference conditions. In addition, their task definitions are still vague, typically limited to axes such as "what to edit" or "how many references are given", and therefore fail to capture the intrinsic difficulty of multi-reference settings. To address this gap, we introduce MultiBanana, which is carefully designed to assesses the edge of model capabilities by widely covering multi-reference-specific problems at scale: (1) varying the number of references, (2) domain mismatch among references (e.g., photo vs. anime), (3) scale mismatch between reference and target scenes, (4) references containing rare concepts (e.g., a red banana), and (5) multilingual textual references for rendering. Our analysis among a variety of text-to-image models reveals their superior performances, typical failure modes, and areas for improvement. MultiBanana will be released as an open benchmark to push the boundaries and establish a standardized basis for fair comparison in multi-reference image generation. Our data and code are available at https://github.com/matsuolab/multibanana .