ChatPaper.aiChatPaper

MultiBanana: マルチ参照画像生成のための挑戦的ベンチマーク

MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

November 28, 2025
著者: Yuta Oshima, Daiki Miyake, Kohsei Matsutani, Yusuke Iwasawa, Masahiro Suzuki, Yutaka Matsuo, Hiroki Furuta
cs.AI

要旨

近年のテキストから画像への生成モデルは、複数参照生成と編集の能力を獲得している。これは、複数の参照画像から被写体の外観を継承し、新たな文脈で再レンダリングする能力である。しかし、既存のベンチマークデータセットは単一または少数の参照画像を用いた生成に焦点を当てることが多く、様々な複数参照条件下でのモデル性能の進歩を測定したり、弱点を特定したりすることを妨げている。さらに、それらのタスク定義は依然として曖昧で、典型的には「何を編集するか」や「いくつの参照が与えられるか」といった軸に限定されており、複数参照設定の本質的な難しさを捉えきれていない。 このギャップを埋めるため、我々はMultiBananaを導入する。これは、以下の複数参照特有の問題を大規模に網羅することで、モデル能力の限界を注意深く評価するよう設計されている:(1) 参照数の変化、(2) 参照間のドメインミスマッチ(例:写真対アニメ)、(3) 参照シーンと目標シーンのスケールミスマッチ、(4) 希少概念を含む参照(例:赤いバナナ)、(5) レンダリングのための多言語テキスト参照。様々なテキストから画像へのモデルに対する我々の分析は、それらの優れた性能、典型的な失敗モード、改善すべき領域を明らかにする。MultiBananaはオープンベンチマークとして公開され、複数参照画像生成における公平な比較の標準化された基盤を確立し、技術の限界を押し広げることを目的とする。データとコードはhttps://github.com/matsuolab/multibanana で利用可能である。
English
Recent text-to-image generation models have acquired the ability of multi-reference generation and editing; the ability to inherit the appearance of subjects from multiple reference images and re-render them under new contexts. However, the existing benchmark datasets often focus on the generation with single or a few reference images, which prevents us from measuring the progress on how model performance advances or pointing out their weaknesses, under different multi-reference conditions. In addition, their task definitions are still vague, typically limited to axes such as "what to edit" or "how many references are given", and therefore fail to capture the intrinsic difficulty of multi-reference settings. To address this gap, we introduce MultiBanana, which is carefully designed to assesses the edge of model capabilities by widely covering multi-reference-specific problems at scale: (1) varying the number of references, (2) domain mismatch among references (e.g., photo vs. anime), (3) scale mismatch between reference and target scenes, (4) references containing rare concepts (e.g., a red banana), and (5) multilingual textual references for rendering. Our analysis among a variety of text-to-image models reveals their superior performances, typical failure modes, and areas for improvement. MultiBanana will be released as an open benchmark to push the boundaries and establish a standardized basis for fair comparison in multi-reference image generation. Our data and code are available at https://github.com/matsuolab/multibanana .
PDF162February 26, 2026