MultiBanana: 다중 참조 텍스트-이미지 생성을 위한 도전적인 벤치마크
MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation
November 28, 2025
저자: Yuta Oshima, Daiki Miyake, Kohsei Matsutani, Yusuke Iwasawa, Masahiro Suzuki, Yutaka Matsuo, Hiroki Furuta
cs.AI
초록
최근 텍스트-이미지 생성 모델은 다중 참조 생성 및 편집 능력, 즉 여러 참조 이미지로부터 대상의 외관을 계승하여 새로운 맥락 아래에서 재현하는 능력을 획득했습니다. 그러나 기존 벤치마크 데이터셋은 단일 또는 소량의 참조 이미지를 활용한 생성에 집중하는 경우가 많아, 다양한 다중 참조 조건에서 모델 성능이 어떻게 발전하는지 측정하거나 해당 약점을 지적하는 데 한계가 있습니다. 또한 기존 데이터셋의 과제 정의는 여전히 모호하여 '무엇을 편집할 것인가' 또는 '몇 개의 참조가 제공되는가'와 같은 축에 국한되는 경향이 있어, 다중 참조 설정이 내재하는 본질적인 난이도를 제대로 반영하지 못합니다. 이러한 격차를 해결하기 위해 본 연구에서는 MultiBanana를 소개합니다. MultiBanana는 다중 참조 특화 문제를 대규모로 광범위하게 다루어 모델 능력의 한계를 평가하도록 세심하게 설계되었습니다: (1) 참조 이미지 수 변동, (2) 참조 이미지 간 도메인 불일치(예: 사진 vs. 애니메이션), (3) 참조 장면과 목표 장면 간 규모 불일치, (4) 희귀 개념을 포함하는 참조 이미지(예: 빨간 바나나), (5) 렌더링을 위한 다국어 텍스트 참조. 다양한 텍스트-이미지 모델을 대상으로 한 분석을 통해 이들의 우수한 성능, 일반적인 실패 유형 및 개선이 필요한 영역을 밝혀냈습니다. MultiBanana는 공개 벤치마크로 출시되어 다중 참조 이미지 생성 분야의 한계를 확장하고 공정한 비교를 위한 표준화된 기반을 마련할 것입니다. 데이터와 코드는 https://github.com/matsuolab/multibanana 에서 이용 가능합니다.
English
Recent text-to-image generation models have acquired the ability of multi-reference generation and editing; the ability to inherit the appearance of subjects from multiple reference images and re-render them under new contexts. However, the existing benchmark datasets often focus on the generation with single or a few reference images, which prevents us from measuring the progress on how model performance advances or pointing out their weaknesses, under different multi-reference conditions. In addition, their task definitions are still vague, typically limited to axes such as "what to edit" or "how many references are given", and therefore fail to capture the intrinsic difficulty of multi-reference settings. To address this gap, we introduce MultiBanana, which is carefully designed to assesses the edge of model capabilities by widely covering multi-reference-specific problems at scale: (1) varying the number of references, (2) domain mismatch among references (e.g., photo vs. anime), (3) scale mismatch between reference and target scenes, (4) references containing rare concepts (e.g., a red banana), and (5) multilingual textual references for rendering. Our analysis among a variety of text-to-image models reveals their superior performances, typical failure modes, and areas for improvement. MultiBanana will be released as an open benchmark to push the boundaries and establish a standardized basis for fair comparison in multi-reference image generation. Our data and code are available at https://github.com/matsuolab/multibanana .