MACRO: Fortschritt in der Multi-Referenz-Bildgenerierung mit strukturierten Langkontext-Daten
MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
March 26, 2026
Autoren: Zhekai Chen, Yuqing Wang, Manyuan Zhang, Xihui Liu
cs.AI
Zusammenfassung
Die Erzeugung von Bildern auf Basis mehrerer visueller Referenzen ist entscheidend für praktische Anwendungen wie Mehrfachsubjekt-Komposition, narrative Illustration und Neuansicht-Synthese. Dennoch leiden aktuelle Modelle unter erheblichem Leistungsabfall mit zunehmender Anzahl an Eingabereferenzen. Als Ursache identifizieren wir einen grundlegenden Datenengpass: Bestehende Datensätze werden von Einzel- oder Wenig-Referenz-Paaren dominiert und entbehren der strukturierten, langkontextuellen Supervision, die zum Erlernen dichter Inter-Referenz-Abhängigkeiten notwendig ist. Um dies zu adressieren, führen wir MacroData ein, einen großangelegten Datensatz mit 400.000 Stichproben, die jeweils bis zu 10 Referenzbilder enthalten und systematisch entlang vier komplementärer Dimensionen – Individualisierung, Illustration, Räumliches Denken und Zeitliche Dynamik – organisiert sind, um eine umfassende Abdeckung des Multi-Referenz-Erzeugungsraums zu gewährleisten. In Anerkennung des gleichzeitigen Fehlens standardisierter Evaluierungsprotokolle schlagen wir zudem MacroBench vor, einen Benchmark mit 4.000 Stichproben, der generative Kohärenz über abgestufte Aufgabendimensionen und Eingabeskalen hinweg bewertet. Umfangreiche Experimente zeigen, dass Fine-Tuning auf MacroData substantielle Verbesserungen bei der Multi-Referenz-Erzeugung bewirkt, und Ablationsstudien offenbaren weiterhin synergetische Vorteile von aufgabenübergreifendem Co-Training sowie effektive Strategien zum Umgang mit Langkontext-Komplexität. Der Datensatz und der Benchmark werden öffentlich zugänglich gemacht.
English
Generating images conditioned on multiple visual references is critical for real-world applications such as multi-subject composition, narrative illustration, and novel view synthesis, yet current models suffer from severe performance degradation as the number of input references grows. We identify the root cause as a fundamental data bottleneck: existing datasets are dominated by single- or few-reference pairs and lack the structured, long-context supervision needed to learn dense inter-reference dependencies. To address this, we introduce MacroData, a large-scale dataset of 400K samples, each containing up to 10 reference images, systematically organized across four complementary dimensions -- Customization, Illustration, Spatial reasoning, and Temporal dynamics -- to provide comprehensive coverage of the multi-reference generation space. Recognizing the concurrent absence of standardized evaluation protocols, we further propose MacroBench, a benchmark of 4,000 samples that assesses generative coherence across graded task dimensions and input scales. Extensive experiments show that fine-tuning on MacroData yields substantial improvements in multi-reference generation, and ablation studies further reveal synergistic benefits of cross-task co-training and effective strategies for handling long-context complexity. The dataset and benchmark will be publicly released.