MACRO: Avanzando en la Generación de Imágenes con Múltiples Referencias mediante Datos Estructurados de Contexto Largo

Resumen

La generación de imágenes condicionadas por múltiples referencias visuales es crucial para aplicaciones del mundo real como la composición multi-sujeto, la ilustración narrativa y la síntesis de vistas novedosas. Sin embargo, los modelos actuales sufren una degradación severa del rendimiento a medida que aumenta el número de referencias de entrada. Identificamos como causa principal un cuello de botella fundamental en los datos: los conjuntos de datos existentes están dominados por pares de una o pocas referencias y carecen de la supervisión estructurada y de contexto largo necesaria para aprender dependencias densas entre referencias. Para abordar este problema, presentamos MacroData, un conjunto de datos a gran escala de 400.000 muestras, cada una con hasta 10 imágenes de referencia, organizadas sistemáticamente en cuatro dimensiones complementarias —Personalización, Ilustración, Razonamiento espacial y Dinámicas temporales— para proporcionar una cobertura integral del espacio de generación multi-referencia. Reconociendo la ausencia concurrente de protocolos de evaluación estandarizados, proponemos además MacroBench, un benchmark de 4.000 muestras que evalúa la coherencia generativa a través de dimensiones de tarea graduadas y escalas de entrada. Experimentos exhaustivos demuestran que el ajuste fino con MacroData produce mejoras sustanciales en la generación multi-referencia, y los estudios de ablación revelan además beneficios sinérgicos del entrenamiento conjunto entre tareas y estrategias efectivas para manejar la complejidad del contexto largo. El conjunto de datos y el benchmark se publicarán públicamente.

English

Generating images conditioned on multiple visual references is critical for real-world applications such as multi-subject composition, narrative illustration, and novel view synthesis, yet current models suffer from severe performance degradation as the number of input references grows. We identify the root cause as a fundamental data bottleneck: existing datasets are dominated by single- or few-reference pairs and lack the structured, long-context supervision needed to learn dense inter-reference dependencies. To address this, we introduce MacroData, a large-scale dataset of 400K samples, each containing up to 10 reference images, systematically organized across four complementary dimensions -- Customization, Illustration, Spatial reasoning, and Temporal dynamics -- to provide comprehensive coverage of the multi-reference generation space. Recognizing the concurrent absence of standardized evaluation protocols, we further propose MacroBench, a benchmark of 4,000 samples that assesses generative coherence across graded task dimensions and input scales. Extensive experiments show that fine-tuning on MacroData yields substantial improvements in multi-reference generation, and ablation studies further reveal synergistic benefits of cross-task co-training and effective strategies for handling long-context complexity. The dataset and benchmark will be publicly released.

MACRO: Avanzando en la Generación de Imágenes con Múltiples Referencias mediante Datos Estructurados de Contexto Largo

MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data

Resumen

Support