MultiBanana: Сложный эталонный тест для многовариантной генерации изображений по тексту
MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation
November 28, 2025
Авторы: Yuta Oshima, Daiki Miyake, Kohsei Matsutani, Yusuke Iwasawa, Masahiro Suzuki, Yutaka Matsuo, Hiroki Furuta
cs.AI
Аннотация
Современные модели генерации изображений по тексту приобрели способность к многократному референсному生成 и редактированию — умению наследовать внешний вид объектов из нескольких эталонных изображений и перерисовывать их в новых контекстах. Однако существующие эталонные наборы данных часто фокусируются на генерации с одним или несколькими референсами, что не позволяет оценить прогресс моделей или выявить их слабые места в различных условиях множественных ссылок. Кроме того, их постановки задач остаются размытыми, обычно ограничиваясь такими аспектами, как «что редактировать» или «сколько референсов задано», и поэтому не отражают внутреннюю сложность многократных ссылок. Для устранения этого пробела мы представляем MultiBanana — тщательно разработанный набор, который оценивает пределы возможностей моделей за счет широкого охвата специфичных для многократных ссылок проблем в масштабе: (1) варьирование количества референсов, (2) междоменное несоответствие между референсами (например, фото против аниме), (3) несоответствие масштабов между эталонной и целевой сценами, (4) референсы с редкими концепциями (например, красный банан) и (5) многоязычные текстовые описания для рендеринга. Наш анализ разнообразных тексто-визуальных моделей выявляет их выдающиеся результаты, типичные режимы сбоев и направления для улучшения. MultiBanana будет выпущен в качестве открытого бенчмарка для расширения границ и создания стандартизированной основы для честного сравнения в области многократной референсной генерации изображений. Наши данные и код доступны по адресу https://github.com/matsuolab/multibanana.
English
Recent text-to-image generation models have acquired the ability of multi-reference generation and editing; the ability to inherit the appearance of subjects from multiple reference images and re-render them under new contexts. However, the existing benchmark datasets often focus on the generation with single or a few reference images, which prevents us from measuring the progress on how model performance advances or pointing out their weaknesses, under different multi-reference conditions. In addition, their task definitions are still vague, typically limited to axes such as "what to edit" or "how many references are given", and therefore fail to capture the intrinsic difficulty of multi-reference settings. To address this gap, we introduce MultiBanana, which is carefully designed to assesses the edge of model capabilities by widely covering multi-reference-specific problems at scale: (1) varying the number of references, (2) domain mismatch among references (e.g., photo vs. anime), (3) scale mismatch between reference and target scenes, (4) references containing rare concepts (e.g., a red banana), and (5) multilingual textual references for rendering. Our analysis among a variety of text-to-image models reveals their superior performances, typical failure modes, and areas for improvement. MultiBanana will be released as an open benchmark to push the boundaries and establish a standardized basis for fair comparison in multi-reference image generation. Our data and code are available at https://github.com/matsuolab/multibanana .