ChatPaper.aiChatPaper

MultiRef: Kontrollierbare Bildgenerierung mit mehreren visuellen Referenzen

MultiRef: Controllable Image Generation with Multiple Visual References

August 9, 2025
papers.authors: Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna
cs.AI

papers.abstract

Visuelle Designer ziehen natürlicherweise Inspiration aus mehreren visuellen Referenzen und kombinieren verschiedene Elemente und ästhetische Prinzipien, um Kunstwerke zu schaffen. Aktuelle Bildgenerierungsframeworks stützen sich jedoch überwiegend auf Einzelquellen – entweder Textprompts oder einzelne Referenzbilder. In diesem Artikel konzentrieren wir uns auf die Aufgabe der kontrollierbaren Bildgenerierung unter Verwendung mehrerer visueller Referenzen. Wir stellen MultiRef-bench vor, ein rigoroses Evaluationsframework, das 990 synthetische und 1.000 reale Beispiele umfasst, die die Integration visueller Inhalte aus mehreren Referenzbildern erfordern. Die synthetischen Beispiele werden durch unsere Datenengine RefBlend generiert, mit 10 Referenztypen und 33 Referenzkombinationen. Basierend auf RefBlend erstellen wir weiterhin einen Datensatz MultiRef, der 38k hochwertige Bilder enthält, um weitere Forschungen zu erleichtern. Unsere Experimente mit drei interleaved Bild-Text-Modellen (d.h. OmniGen, ACE und Show-o) und sechs agentenbasierten Frameworks (z.B. ChatDiT und LLM + SD) zeigen, dass selbst state-of-the-art Systeme mit der Multi-Referenz-Konditionierung zu kämpfen haben, wobei das beste Modell OmniGen im Durchschnitt nur 66,6 % bei synthetischen Beispielen und 79,0 % bei realen Fällen im Vergleich zur goldenen Antwort erreicht. Diese Erkenntnisse bieten wertvolle Richtlinien für die Entwicklung flexiblerer und menschenähnlicherer kreativer Tools, die effektiv mehrere Quellen visueller Inspiration integrieren können. Der Datensatz ist öffentlich verfügbar unter: https://multiref.github.io/.
English
Visual designers naturally draw inspiration from multiple visual references, combining diverse elements and aesthetic principles to create artwork. However, current image generative frameworks predominantly rely on single-source inputs -- either text prompts or individual reference images. In this paper, we focus on the task of controllable image generation using multiple visual references. We introduce MultiRef-bench, a rigorous evaluation framework comprising 990 synthetic and 1,000 real-world samples that require incorporating visual content from multiple reference images. The synthetic samples are synthetically generated through our data engine RefBlend, with 10 reference types and 33 reference combinations. Based on RefBlend, we further construct a dataset MultiRef containing 38k high-quality images to facilitate further research. Our experiments across three interleaved image-text models (i.e., OmniGen, ACE, and Show-o) and six agentic frameworks (e.g., ChatDiT and LLM + SD) reveal that even state-of-the-art systems struggle with multi-reference conditioning, with the best model OmniGen achieving only 66.6% in synthetic samples and 79.0% in real-world cases on average compared to the golden answer. These findings provide valuable directions for developing more flexible and human-like creative tools that can effectively integrate multiple sources of visual inspiration. The dataset is publicly available at: https://multiref.github.io/.
PDF131August 20, 2025