MultiBanana: Un punto de referencia desafiante para la generación de imágenes a partir de texto con múltiples referencias

Resumen

Los modelos recientes de generación de texto a imagen han adquirido la capacidad de generación y edición multirreferencial; es decir, la habilidad de heredar la apariencia de sujetos a partir de múltiples imágenes de referencia y volver a renderizarlos en nuevos contextos. Sin embargo, los conjuntos de datos de evaluación existentes suelen centrarse en la generación con una sola imagen o pocas imágenes de referencia, lo que impide medir el progreso sobre cómo avanza el rendimiento del modelo o señalar sus debilidades bajo diferentes condiciones multirreferenciales. Además, sus definiciones de tarea siguen siendo vagas, típicamente limitadas a ejes como "qué editar" o "cuántas referencias se dan", y por lo tanto no logran capturar la dificultad intrínseca de los ajustes multirreferenciales. Para abordar esta brecha, presentamos MultiBanana, que está cuidadosamente diseñado para evaluar el límite de las capacidades del modelo cubriendo ampliamente problemas específicos de multirreferencia a escala: (1) variar el número de referencias, (2) desajuste de dominio entre referencias (por ejemplo, foto vs. anime), (3) desajuste de escala entre la escena de referencia y la objetivo, (4) referencias que contienen conceptos raros (por ejemplo, un plátano rojo), y (5) referencias textuales multilingües para el renderizado. Nuestro análisis entre una variedad de modelos de texto a imagen revela sus rendimientos superiores, modos de fallo típicos y áreas de mejora. MultiBanana se publicará como un benchmark abierto para impulsar los límites y establecer una base estandarizada para la comparación justa en la generación de imágenes multirreferenciales. Nuestros datos y código están disponibles en https://github.com/matsuolab/multibanana.

English

Recent text-to-image generation models have acquired the ability of multi-reference generation and editing; the ability to inherit the appearance of subjects from multiple reference images and re-render them under new contexts. However, the existing benchmark datasets often focus on the generation with single or a few reference images, which prevents us from measuring the progress on how model performance advances or pointing out their weaknesses, under different multi-reference conditions. In addition, their task definitions are still vague, typically limited to axes such as "what to edit" or "how many references are given", and therefore fail to capture the intrinsic difficulty of multi-reference settings. To address this gap, we introduce MultiBanana, which is carefully designed to assesses the edge of model capabilities by widely covering multi-reference-specific problems at scale: (1) varying the number of references, (2) domain mismatch among references (e.g., photo vs. anime), (3) scale mismatch between reference and target scenes, (4) references containing rare concepts (e.g., a red banana), and (5) multilingual textual references for rendering. Our analysis among a variety of text-to-image models reveals their superior performances, typical failure modes, and areas for improvement. MultiBanana will be released as an open benchmark to push the boundaries and establish a standardized basis for fair comparison in multi-reference image generation. Our data and code are available at https://github.com/matsuolab/multibanana .

MultiBanana: Un punto de referencia desafiante para la generación de imágenes a partir de texto con múltiples referencias

MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

Resumen

Support