MACRO: Развитие генерации изображений с множественными референсами на основе структурированных данных длинного контекста
MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
March 26, 2026
Авторы: Zhekai Chen, Yuqing Wang, Manyuan Zhang, Xihui Liu
cs.AI
Аннотация
Генерация изображений на основе множественных визуальных референсов является ключевой задачей для практических приложений, таких как композиция нескольких объектов, нарративная иллюстрация и синтез новых ракурсов. Однако современные модели демонстрируют значительное ухудшение производительности с ростом числа входных референсов. Мы определяем коренную причину как фундаментальную проблему данных: существующие наборы данных преимущественно содержат одиночные или немногочисленные пары референсов и лишены структурированного, длинно-контекстного контроля, необходимого для изучения плотных межреференсных зависимостей. Для решения этой проблемы мы представляем MacroData — масштабный набор данных из 400 тыс. образцов, каждый из которых содержит до 10 эталонных изображений, систематически организованных по четырем взаимодополняющим измерениям: кастомизация, иллюстрация, пространственные отношения и временная динамика — для комплексного охвата пространства многореференсной генерации. Учитывая параллельное отсутствие стандартизированных протоколов оценки, мы также предлагаем MacroBench — бенчмарк из 4000 образцов, оценивающий генеративную согласованность по градуированным измерениям задач и масштабам входных данных. Многочисленные эксперименты показывают, что дообучение на MacroData приводит к существенному улучшению многореференсной генерации, а ablation-исследования дополнительно выявляют синергетические преимущества кросс-задачного совместного обучения и эффективные стратегии обработки длинно-контекстной сложности. Набор данных и бенчмарк будут публично выпущены.
English
Generating images conditioned on multiple visual references is critical for real-world applications such as multi-subject composition, narrative illustration, and novel view synthesis, yet current models suffer from severe performance degradation as the number of input references grows. We identify the root cause as a fundamental data bottleneck: existing datasets are dominated by single- or few-reference pairs and lack the structured, long-context supervision needed to learn dense inter-reference dependencies. To address this, we introduce MacroData, a large-scale dataset of 400K samples, each containing up to 10 reference images, systematically organized across four complementary dimensions -- Customization, Illustration, Spatial reasoning, and Temporal dynamics -- to provide comprehensive coverage of the multi-reference generation space. Recognizing the concurrent absence of standardized evaluation protocols, we further propose MacroBench, a benchmark of 4,000 samples that assesses generative coherence across graded task dimensions and input scales. Extensive experiments show that fine-tuning on MacroData yields substantial improvements in multi-reference generation, and ablation studies further reveal synergistic benefits of cross-task co-training and effective strategies for handling long-context complexity. The dataset and benchmark will be publicly released.