ChatPaper.aiChatPaper

MultiRef : Génération d'images contrôlée avec plusieurs références visuelles

MultiRef: Controllable Image Generation with Multiple Visual References

August 9, 2025
papers.authors: Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna
cs.AI

papers.abstract

Les designers visuels puisent naturellement leur inspiration dans de multiples références visuelles, combinant divers éléments et principes esthétiques pour créer des œuvres. Cependant, les cadres actuels de génération d'images reposent principalement sur des entrées à source unique -- soit des invites textuelles, soit des images de référence individuelles. Dans cet article, nous nous concentrons sur la tâche de génération d'images contrôlable à l'aide de multiples références visuelles. Nous présentons MultiRef-bench, un cadre d'évaluation rigoureux comprenant 990 échantillons synthétiques et 1 000 échantillons réels nécessitant l'intégration de contenu visuel provenant de plusieurs images de référence. Les échantillons synthétiques sont générés artificiellement grâce à notre moteur de données RefBlend, avec 10 types de références et 33 combinaisons de références. Sur la base de RefBlend, nous construisons en outre un ensemble de données MultiRef contenant 38 000 images de haute qualité pour faciliter les recherches ultérieures. Nos expériences sur trois modèles intercalés image-texte (c'est-à-dire OmniGen, ACE et Show-o) et six cadres agentiques (par exemple, ChatDiT et LLM + SD) révèlent que même les systèmes les plus avancés peinent avec le conditionnement multi-référence, le meilleur modèle OmniGen atteignant seulement 66,6 % sur les échantillons synthétiques et 79,0 % sur les cas réels en moyenne par rapport à la réponse idéale. Ces résultats fournissent des orientations précieuses pour développer des outils créatifs plus flexibles et plus proches de l'humain, capables d'intégrer efficacement plusieurs sources d'inspiration visuelle. L'ensemble de données est disponible publiquement à l'adresse : https://multiref.github.io/.
English
Visual designers naturally draw inspiration from multiple visual references, combining diverse elements and aesthetic principles to create artwork. However, current image generative frameworks predominantly rely on single-source inputs -- either text prompts or individual reference images. In this paper, we focus on the task of controllable image generation using multiple visual references. We introduce MultiRef-bench, a rigorous evaluation framework comprising 990 synthetic and 1,000 real-world samples that require incorporating visual content from multiple reference images. The synthetic samples are synthetically generated through our data engine RefBlend, with 10 reference types and 33 reference combinations. Based on RefBlend, we further construct a dataset MultiRef containing 38k high-quality images to facilitate further research. Our experiments across three interleaved image-text models (i.e., OmniGen, ACE, and Show-o) and six agentic frameworks (e.g., ChatDiT and LLM + SD) reveal that even state-of-the-art systems struggle with multi-reference conditioning, with the best model OmniGen achieving only 66.6% in synthetic samples and 79.0% in real-world cases on average compared to the golden answer. These findings provide valuable directions for developing more flexible and human-like creative tools that can effectively integrate multiple sources of visual inspiration. The dataset is publicly available at: https://multiref.github.io/.
PDF131August 20, 2025