MultiBanana: Um Benchmark Desafiador para Geração de Imagem a Partir de Texto com Múltiplas Referências
MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation
November 28, 2025
Autores: Yuta Oshima, Daiki Miyake, Kohsei Matsutani, Yusuke Iwasawa, Masahiro Suzuki, Yutaka Matsuo, Hiroki Furuta
cs.AI
Resumo
Os modelos recentes de geração e edição de texto para imagem adquiriram a capacidade de geração multi-referência; a habilidade de herdar a aparência de sujeitos a partir de múltiplas imagens de referência e re-renderizá-los em novos contextos. No entanto, os conjuntos de dados de benchmark existentes frequentemente focam na geração com uma única ou poucas imagens de referência, o que nos impede de medir o progresso sobre como o desempenho do modelo avança ou de apontar suas fraquezas sob diferentes condições multi-referência. Além disso, suas definições de tarefa ainda são vagas, tipicamente limitadas a eixos como "o que editar" ou "quantas referências são fornecidas", e, portanto, falham em capturar a dificuldade intrínseca das configurações multi-referência. Para abordar esta lacuna, introduzimos o MultiBanana, que é cuidadosamente projetado para avaliar o limite das capacidades dos modelos ao cobrir amplamente problemas específicos de multi-referência em escala: (1) variar o número de referências, (2) desalinhamento de domínio entre as referências (ex.: foto vs. anime), (3) desalinhamento de escala entre as cenas de referência e alvo, (4) referências contendo conceitos raros (ex.: uma banana vermelha), e (5) referências textuais multilingues para renderização. Nossa análise entre uma variedade de modelos de texto para imagem revela seus desempenhos superiores, modos de falha típicos e áreas para melhoria. O MultiBanana será lançado como um benchmark aberto para empurrar as fronteiras e estabelecer uma base padronizada para comparação justa na geração de imagens multi-referência. Nossos dados e código estão disponíveis em https://github.com/matsuolab/multibanana.
English
Recent text-to-image generation models have acquired the ability of multi-reference generation and editing; the ability to inherit the appearance of subjects from multiple reference images and re-render them under new contexts. However, the existing benchmark datasets often focus on the generation with single or a few reference images, which prevents us from measuring the progress on how model performance advances or pointing out their weaknesses, under different multi-reference conditions. In addition, their task definitions are still vague, typically limited to axes such as "what to edit" or "how many references are given", and therefore fail to capture the intrinsic difficulty of multi-reference settings. To address this gap, we introduce MultiBanana, which is carefully designed to assesses the edge of model capabilities by widely covering multi-reference-specific problems at scale: (1) varying the number of references, (2) domain mismatch among references (e.g., photo vs. anime), (3) scale mismatch between reference and target scenes, (4) references containing rare concepts (e.g., a red banana), and (5) multilingual textual references for rendering. Our analysis among a variety of text-to-image models reveals their superior performances, typical failure modes, and areas for improvement. MultiBanana will be released as an open benchmark to push the boundaries and establish a standardized basis for fair comparison in multi-reference image generation. Our data and code are available at https://github.com/matsuolab/multibanana .