MACRO : Faire progresser la génération d'images multi-références grâce à des données structurées à contexte long
MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
March 26, 2026
Auteurs: Zhekai Chen, Yuqing Wang, Manyuan Zhang, Xihui Liu
cs.AI
Résumé
La génération d'images conditionnée par plusieurs références visuelles est essentielle pour des applications réelles telles que la composition multi-sujets, l'illustration narrative et la synthèse de nouvelles vues. Pourtant, les modèles actuels subissent une dégradation sévère des performances à mesure que le nombre de références en entrée augmente. Nous identifions la cause fondamentale comme un goulot d'étranglement fondamental des données : les ensembles de données existants sont dominés par des paires de références uniques ou peu nombreuses et manquent de la supervision structurée à long contexte nécessaire pour apprendre les dépendances denses entre les références. Pour remédier à cela, nous présentons MacroData, un jeu de données à grande échelle de 400 000 échantillons, chacun contenant jusqu'à 10 images de référence, systématiquement organisé selon quatre dimensions complémentaires – Personnalisation, Illustration, Raisonnement spatial et Dynamique temporelle – afin de fournir une couverture complète de l'espace de génération multi-références. Reconnaissant l'absence concomitante de protocoles d'évaluation standardisés, nous proposons en outre MacroBench, un benchmark de 4 000 échantillons qui évalue la cohérence générative selon des dimensions de tâches graduées et des échelles d'entrée. Des expériences approfondies montrent que le fine-tuning sur MacroData permet des améliorations substantielles dans la génération multi-références, et des études d'ablation révèlent en outre les bénéfices synergiques de l'entraînement conjoint multi-tâches et des stratégies efficaces pour gérer la complexité des longs contextes. Le jeu de données et le benchmark seront rendus publics.
English
Generating images conditioned on multiple visual references is critical for real-world applications such as multi-subject composition, narrative illustration, and novel view synthesis, yet current models suffer from severe performance degradation as the number of input references grows. We identify the root cause as a fundamental data bottleneck: existing datasets are dominated by single- or few-reference pairs and lack the structured, long-context supervision needed to learn dense inter-reference dependencies. To address this, we introduce MacroData, a large-scale dataset of 400K samples, each containing up to 10 reference images, systematically organized across four complementary dimensions -- Customization, Illustration, Spatial reasoning, and Temporal dynamics -- to provide comprehensive coverage of the multi-reference generation space. Recognizing the concurrent absence of standardized evaluation protocols, we further propose MacroBench, a benchmark of 4,000 samples that assesses generative coherence across graded task dimensions and input scales. Extensive experiments show that fine-tuning on MacroData yields substantial improvements in multi-reference generation, and ablation studies further reveal synergistic benefits of cross-task co-training and effective strategies for handling long-context complexity. The dataset and benchmark will be publicly released.