MACRO: Avanzamento nella Generazione di Immagini Multi-Riferimento con Dati Strutturati a Lungo Contesto
MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
March 26, 2026
Autori: Zhekai Chen, Yuqing Wang, Manyuan Zhang, Xihui Liu
cs.AI
Abstract
La generazione di immagini condizionata da riferimenti visivi multipli è fondamentale per applicazioni nel mondo reale come la composizione multi-soggetto, l'illustrazione narrativa e la sintesi di nuove visuali, eppure i modelli attuali soffrono di un grave degrado delle prestazioni all'aumentare del numero di riferimenti in input. Identifichiamo la causa principale in un collo di bottiglia fondamentale nei dati: i dataset esistenti sono dominati da coppie con uno o pochi riferimenti e mancano della supervisione strutturata a lungo contesto necessaria per apprendere dense dipendenze inter-riferimento. Per affrontare questo problema, introduciamo MacroData, un dataset su larga scala di 400.000 campioni, ciascuno contenente fino a 10 immagini di riferimento, organizzato sistematicamente lungo quattro dimensioni complementari – Personalizzazione, Illustrazione, Ragionamento spaziale e Dinamiche temporali – per fornire una copertura completa dello spazio di generazione multi-riferimento. Riconoscendo la concomitante assenza di protocolli di valutazione standardizzati, proponiamo ulteriormente MacroBench, un benchmark di 4.000 campioni che valuta la coerenza generativa attraverso dimensioni di compito graduate e scale di input. Esperimenti estensivi mostrano che il fine-tuning su MacroData produce miglioramenti sostanziali nella generazione multi-riferimento, e studi di ablazione rivelano ulteriormente benefici sinergici dell'addestramento congiunto cross-task e strategie efficaci per gestire la complessità del contesto lungo. Il dataset e il benchmark saranno rilasciati pubblicamente.
English
Generating images conditioned on multiple visual references is critical for real-world applications such as multi-subject composition, narrative illustration, and novel view synthesis, yet current models suffer from severe performance degradation as the number of input references grows. We identify the root cause as a fundamental data bottleneck: existing datasets are dominated by single- or few-reference pairs and lack the structured, long-context supervision needed to learn dense inter-reference dependencies. To address this, we introduce MacroData, a large-scale dataset of 400K samples, each containing up to 10 reference images, systematically organized across four complementary dimensions -- Customization, Illustration, Spatial reasoning, and Temporal dynamics -- to provide comprehensive coverage of the multi-reference generation space. Recognizing the concurrent absence of standardized evaluation protocols, we further propose MacroBench, a benchmark of 4,000 samples that assesses generative coherence across graded task dimensions and input scales. Extensive experiments show that fine-tuning on MacroData yields substantial improvements in multi-reference generation, and ablation studies further reveal synergistic benefits of cross-task co-training and effective strategies for handling long-context complexity. The dataset and benchmark will be publicly released.