MACRO: 구조화된 장문 컨텍스트 데이터를 통한 다중 참조 이미지 생성 기술 발전
MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
March 26, 2026
저자: Zhekai Chen, Yuqing Wang, Manyuan Zhang, Xihui Liu
cs.AI
초록
다양한 시각적 참조를 조건으로 이미지를 생성하는 기술은 다중 대상 구성, 서사적 일러스트레이션, 새로운 시점 합성과 같은 실제 응용 분야에서 중요하지만, 현재 모델들은 입력 참조 이미지 수가 증가함에 따라 성능이 현저히 저하되는 문제를 겪고 있습니다. 우리는 이러한 문제의 근본 원인이 기본적인 데이터 병목 현상에 있음을 규명했습니다: 기존 데이터셋은 단일 또는 소량의 참조 이미지 쌍으로 주로 구성되어 있으며, 조밀한 참조 간 의존성을 학습하는 데 필요한 구조화된 장문맥 감독이 부족합니다. 이를 해결하기 위해 우리는 400,000개 샘플로 구성된 대규모 데이터셋인 MacroData를 소개합니다. 각 샘플은 최대 10개의 참조 이미지를 포함하며, 다중 참조 생성 영역을 포괄적으로 다루기 위해 맞춤화, 일러스트레이션, 공간 추론, 시간적 역동성이라는 네 가지 상호 보완적 차원에 걸쳐 체계적으로 구성되었습니다. 동시에 표준화된 평가 프로토콜의 부재를 인식하여, 우리는 등급화된 작업 차원과 입력 규모에 걸쳐 생성 일관성을 평가하는 4,000개 샘플의 벤치마크인 MacroBench을 추가로 제안합니다. 폭넓은 실험을 통해 MacroData에 대한 미세 조정이 다중 참조 생성에서 상당한 성능 향상을 가져옴을 확인하였으며, ablation 연구를 통해 교차 작업 공동 훈련의 시너지 효과와 장문맥 복잡성을 처리하는 효과적인 전략을 추가로 규명했습니다. 데이터셋과 벤치마크는 공개될 예정입니다.
English
Generating images conditioned on multiple visual references is critical for real-world applications such as multi-subject composition, narrative illustration, and novel view synthesis, yet current models suffer from severe performance degradation as the number of input references grows. We identify the root cause as a fundamental data bottleneck: existing datasets are dominated by single- or few-reference pairs and lack the structured, long-context supervision needed to learn dense inter-reference dependencies. To address this, we introduce MacroData, a large-scale dataset of 400K samples, each containing up to 10 reference images, systematically organized across four complementary dimensions -- Customization, Illustration, Spatial reasoning, and Temporal dynamics -- to provide comprehensive coverage of the multi-reference generation space. Recognizing the concurrent absence of standardized evaluation protocols, we further propose MacroBench, a benchmark of 4,000 samples that assesses generative coherence across graded task dimensions and input scales. Extensive experiments show that fine-tuning on MacroData yields substantial improvements in multi-reference generation, and ablation studies further reveal synergistic benefits of cross-task co-training and effective strategies for handling long-context complexity. The dataset and benchmark will be publicly released.