MACRO: Avançando na Geração de Imagens com Múltiplas Referências por meio de Dados Estruturados de Longo Contexto

Resumo

A geração de imagens condicionada por múltiplas referências visuais é crucial para aplicações do mundo real, como composição multiassunto, ilustração narrativa e síntese de novos pontos de vista. No entanto, os modelos atuais sofrem com uma degradação severa de desempenho à medida que o número de referências de entrada aumenta. Identificamos a causa raiz como um gargalo fundamental de dados: os conjuntos de dados existentes são dominados por pares de referência únicos ou escassos e carecem da supervisão estruturada e de contexto longo necessária para aprender dependências densas entre referências. Para resolver isso, introduzimos o MacroData, um conjunto de dados em larga escala com 400 mil amostras, cada uma contendo até 10 imagens de referência, organizadas sistematicamente em quatro dimensões complementares – Customização, Ilustração, Raciocínio Espacial e Dinâmica Temporal – para fornecer uma cobertura abrangente do espaço de geração multi-referência. Reconhecendo a ausência concomitante de protocolos de avaliação padronizados, propomos ainda o MacroBench, um benchmark de 4.000 amostras que avalia a coerência gerativa através de dimensões de tarefa graduadas e escalas de entrada. Experimentos extensos mostram que o ajuste fino (fine-tuning) no MacroData produz melhorias substanciais na geração multi-referência, e estudos de ablação revelam ainda benefícios sinérgicos do co-treinamento cruzado de tarefas e estratégias eficazes para lidar com a complexidade de contexto longo. O conjunto de dados e o benchmark serão disponibilizados publicamente.

English

Generating images conditioned on multiple visual references is critical for real-world applications such as multi-subject composition, narrative illustration, and novel view synthesis, yet current models suffer from severe performance degradation as the number of input references grows. We identify the root cause as a fundamental data bottleneck: existing datasets are dominated by single- or few-reference pairs and lack the structured, long-context supervision needed to learn dense inter-reference dependencies. To address this, we introduce MacroData, a large-scale dataset of 400K samples, each containing up to 10 reference images, systematically organized across four complementary dimensions -- Customization, Illustration, Spatial reasoning, and Temporal dynamics -- to provide comprehensive coverage of the multi-reference generation space. Recognizing the concurrent absence of standardized evaluation protocols, we further propose MacroBench, a benchmark of 4,000 samples that assesses generative coherence across graded task dimensions and input scales. Extensive experiments show that fine-tuning on MacroData yields substantial improvements in multi-reference generation, and ablation studies further reveal synergistic benefits of cross-task co-training and effective strategies for handling long-context complexity. The dataset and benchmark will be publicly released.

MACRO: Avançando na Geração de Imagens com Múltiplas Referências por meio de Dados Estruturados de Longo Contexto

MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data

Resumo

Support