ChatPaper.aiChatPaper

MACRO: Avanzando en la Generación de Imágenes con Múltiples Referencias mediante Datos Estructurados de Contexto Largo

MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data

March 26, 2026
Autores: Zhekai Chen, Yuqing Wang, Manyuan Zhang, Xihui Liu
cs.AI

Resumen

La generación de imágenes condicionadas por múltiples referencias visuales es crucial para aplicaciones del mundo real como la composición multi-sujeto, la ilustración narrativa y la síntesis de vistas novedosas. Sin embargo, los modelos actuales sufren una degradación severa del rendimiento a medida que aumenta el número de referencias de entrada. Identificamos como causa principal un cuello de botella fundamental en los datos: los conjuntos de datos existentes están dominados por pares de una o pocas referencias y carecen de la supervisión estructurada y de contexto largo necesaria para aprender dependencias densas entre referencias. Para abordar este problema, presentamos MacroData, un conjunto de datos a gran escala de 400.000 muestras, cada una con hasta 10 imágenes de referencia, organizadas sistemáticamente en cuatro dimensiones complementarias —Personalización, Ilustración, Razonamiento espacial y Dinámicas temporales— para proporcionar una cobertura integral del espacio de generación multi-referencia. Reconociendo la ausencia concurrente de protocolos de evaluación estandarizados, proponemos además MacroBench, un benchmark de 4.000 muestras que evalúa la coherencia generativa a través de dimensiones de tarea graduadas y escalas de entrada. Experimentos exhaustivos demuestran que el ajuste fino con MacroData produce mejoras sustanciales en la generación multi-referencia, y los estudios de ablación revelan además beneficios sinérgicos del entrenamiento conjunto entre tareas y estrategias efectivas para manejar la complejidad del contexto largo. El conjunto de datos y el benchmark se publicarán públicamente.
English
Generating images conditioned on multiple visual references is critical for real-world applications such as multi-subject composition, narrative illustration, and novel view synthesis, yet current models suffer from severe performance degradation as the number of input references grows. We identify the root cause as a fundamental data bottleneck: existing datasets are dominated by single- or few-reference pairs and lack the structured, long-context supervision needed to learn dense inter-reference dependencies. To address this, we introduce MacroData, a large-scale dataset of 400K samples, each containing up to 10 reference images, systematically organized across four complementary dimensions -- Customization, Illustration, Spatial reasoning, and Temporal dynamics -- to provide comprehensive coverage of the multi-reference generation space. Recognizing the concurrent absence of standardized evaluation protocols, we further propose MacroBench, a benchmark of 4,000 samples that assesses generative coherence across graded task dimensions and input scales. Extensive experiments show that fine-tuning on MacroData yields substantial improvements in multi-reference generation, and ablation studies further reveal synergistic benefits of cross-task co-training and effective strategies for handling long-context complexity. The dataset and benchmark will be publicly released.
PDF261March 28, 2026