MultiRef: Beheersbare beeldgeneratie met meerdere visuele referenties
MultiRef: Controllable Image Generation with Multiple Visual References
August 9, 2025
Auteurs: Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna
cs.AI
Samenvatting
Visuele ontwerpers putten van nature inspiratie uit meerdere visuele referenties, waarbij ze diverse elementen en esthetische principes combineren om kunstwerken te creëren. Huidige frameworks voor beeldgeneratie zijn echter voornamelijk afhankelijk van inputs uit één bron – ofwel tekstprompts of individuele referentiebeelden. In dit artikel richten we ons op de taak van controleerbare beeldgeneratie met behulp van meerdere visuele referenties. We introduceren MultiRef-bench, een rigoureus evaluatieframework bestaande uit 990 synthetische en 1.000 real-world samples die het incorporeren van visuele inhoud uit meerdere referentiebeelden vereisen. De synthetische samples zijn gegenereerd via onze data-engine RefBlend, met 10 referentietypen en 33 referentiecombinaties. Op basis van RefBlend construeren we verder een dataset MultiRef met 38k hoogwaardige beelden om verder onderzoek te faciliteren. Onze experimenten met drie interleaved beeld-tekstmodellen (d.w.z. OmniGen, ACE en Show-o) en zes agentische frameworks (bijv. ChatDiT en LLM + SD) laten zien dat zelfs state-of-the-art systemen moeite hebben met multi-referentieconditionering, waarbij het beste model OmniGen slechts 66,6% in synthetische samples en 79,0% in real-world gevallen gemiddeld behaalt in vergelijking met het gouden antwoord. Deze bevindingen bieden waardevolle richtingen voor het ontwikkelen van flexibelere en menselijkere creatieve tools die effectief meerdere bronnen van visuele inspiratie kunnen integreren. De dataset is publiek beschikbaar op: https://multiref.github.io/.
English
Visual designers naturally draw inspiration from multiple visual references,
combining diverse elements and aesthetic principles to create artwork. However,
current image generative frameworks predominantly rely on single-source inputs
-- either text prompts or individual reference images. In this paper, we focus
on the task of controllable image generation using multiple visual references.
We introduce MultiRef-bench, a rigorous evaluation framework comprising 990
synthetic and 1,000 real-world samples that require incorporating visual
content from multiple reference images. The synthetic samples are synthetically
generated through our data engine RefBlend, with 10 reference types and 33
reference combinations. Based on RefBlend, we further construct a dataset
MultiRef containing 38k high-quality images to facilitate further research. Our
experiments across three interleaved image-text models (i.e., OmniGen, ACE, and
Show-o) and six agentic frameworks (e.g., ChatDiT and LLM + SD) reveal that
even state-of-the-art systems struggle with multi-reference conditioning, with
the best model OmniGen achieving only 66.6% in synthetic samples and 79.0% in
real-world cases on average compared to the golden answer. These findings
provide valuable directions for developing more flexible and human-like
creative tools that can effectively integrate multiple sources of visual
inspiration. The dataset is publicly available at: https://multiref.github.io/.