MultiRef: 다중 시각적 참조를 통한 제어 가능한 이미지 생성
MultiRef: Controllable Image Generation with Multiple Visual References
August 9, 2025
저자: Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna
cs.AI
초록
시각 디자이너들은 자연스럽게 여러 시각적 참고 자료에서 영감을 얻으며, 다양한 요소와 미학적 원칙을 결합하여 작품을 창작합니다. 그러나 현재의 이미지 생성 프레임워크는 주로 단일 소스 입력(텍스트 프롬프트 또는 개별 참조 이미지)에 의존하고 있습니다. 본 논문에서는 다중 시각적 참조를 활용한 제어 가능한 이미지 생성 작업에 초점을 맞춥니다. 우리는 MultiRef-bench를 소개하는데, 이는 다중 참조 이미지의 시각적 내용을 통합해야 하는 990개의 합성 샘플과 1,000개의 실제 샘플로 구성된 엄격한 평가 프레임워크입니다. 합성 샘플은 우리의 데이터 엔진 RefBlend를 통해 생성되었으며, 10개의 참조 유형과 33개의 참조 조합을 포함합니다. RefBlend를 기반으로, 우리는 추가 연구를 촉진하기 위해 38,000개의 고품질 이미지를 포함한 MultiRef 데이터셋을 구축했습니다. 세 가지 인터리브 이미지-텍스트 모델(OmniGen, ACE, Show-o)과 여섯 가지 에이전트 프레임워크(ChatDiT, LLM + SD 등)에 대한 실험 결과, 최첨단 시스템조차 다중 참조 조건화에 어려움을 겪는 것으로 나타났습니다. 최고의 모델인 OmniGen은 합성 샘플에서 평균 66.6%, 실제 사례에서 79.0%의 성능을 보였으며, 이는 골든 답안과 비교한 수치입니다. 이러한 발견은 다중 시각적 영감을 효과적으로 통합할 수 있는 더 유연하고 인간적인 창의적 도구 개발에 유용한 방향을 제시합니다. 데이터셋은 https://multiref.github.io/에서 공개적으로 이용 가능합니다.
English
Visual designers naturally draw inspiration from multiple visual references,
combining diverse elements and aesthetic principles to create artwork. However,
current image generative frameworks predominantly rely on single-source inputs
-- either text prompts or individual reference images. In this paper, we focus
on the task of controllable image generation using multiple visual references.
We introduce MultiRef-bench, a rigorous evaluation framework comprising 990
synthetic and 1,000 real-world samples that require incorporating visual
content from multiple reference images. The synthetic samples are synthetically
generated through our data engine RefBlend, with 10 reference types and 33
reference combinations. Based on RefBlend, we further construct a dataset
MultiRef containing 38k high-quality images to facilitate further research. Our
experiments across three interleaved image-text models (i.e., OmniGen, ACE, and
Show-o) and six agentic frameworks (e.g., ChatDiT and LLM + SD) reveal that
even state-of-the-art systems struggle with multi-reference conditioning, with
the best model OmniGen achieving only 66.6% in synthetic samples and 79.0% in
real-world cases on average compared to the golden answer. These findings
provide valuable directions for developing more flexible and human-like
creative tools that can effectively integrate multiple sources of visual
inspiration. The dataset is publicly available at: https://multiref.github.io/.