MultiRef: Kontrollierbare Bildgenerierung mit mehreren visuellen Referenzen
MultiRef: Controllable Image Generation with Multiple Visual References
August 9, 2025
papers.authors: Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna
cs.AI
papers.abstract
Visuelle Designer ziehen natürlicherweise Inspiration aus mehreren visuellen Referenzen und kombinieren verschiedene Elemente und ästhetische Prinzipien, um Kunstwerke zu schaffen. Aktuelle Bildgenerierungsframeworks stützen sich jedoch überwiegend auf Einzelquellen – entweder Textprompts oder einzelne Referenzbilder. In diesem Artikel konzentrieren wir uns auf die Aufgabe der kontrollierbaren Bildgenerierung unter Verwendung mehrerer visueller Referenzen. Wir stellen MultiRef-bench vor, ein rigoroses Evaluationsframework, das 990 synthetische und 1.000 reale Beispiele umfasst, die die Integration visueller Inhalte aus mehreren Referenzbildern erfordern. Die synthetischen Beispiele werden durch unsere Datenengine RefBlend generiert, mit 10 Referenztypen und 33 Referenzkombinationen. Basierend auf RefBlend erstellen wir weiterhin einen Datensatz MultiRef, der 38k hochwertige Bilder enthält, um weitere Forschungen zu erleichtern. Unsere Experimente mit drei interleaved Bild-Text-Modellen (d.h. OmniGen, ACE und Show-o) und sechs agentenbasierten Frameworks (z.B. ChatDiT und LLM + SD) zeigen, dass selbst state-of-the-art Systeme mit der Multi-Referenz-Konditionierung zu kämpfen haben, wobei das beste Modell OmniGen im Durchschnitt nur 66,6 % bei synthetischen Beispielen und 79,0 % bei realen Fällen im Vergleich zur goldenen Antwort erreicht. Diese Erkenntnisse bieten wertvolle Richtlinien für die Entwicklung flexiblerer und menschenähnlicherer kreativer Tools, die effektiv mehrere Quellen visueller Inspiration integrieren können. Der Datensatz ist öffentlich verfügbar unter: https://multiref.github.io/.
English
Visual designers naturally draw inspiration from multiple visual references,
combining diverse elements and aesthetic principles to create artwork. However,
current image generative frameworks predominantly rely on single-source inputs
-- either text prompts or individual reference images. In this paper, we focus
on the task of controllable image generation using multiple visual references.
We introduce MultiRef-bench, a rigorous evaluation framework comprising 990
synthetic and 1,000 real-world samples that require incorporating visual
content from multiple reference images. The synthetic samples are synthetically
generated through our data engine RefBlend, with 10 reference types and 33
reference combinations. Based on RefBlend, we further construct a dataset
MultiRef containing 38k high-quality images to facilitate further research. Our
experiments across three interleaved image-text models (i.e., OmniGen, ACE, and
Show-o) and six agentic frameworks (e.g., ChatDiT and LLM + SD) reveal that
even state-of-the-art systems struggle with multi-reference conditioning, with
the best model OmniGen achieving only 66.6% in synthetic samples and 79.0% in
real-world cases on average compared to the golden answer. These findings
provide valuable directions for developing more flexible and human-like
creative tools that can effectively integrate multiple sources of visual
inspiration. The dataset is publicly available at: https://multiref.github.io/.