ChatPaper.aiChatPaper

MultiRef: Geração Controlável de Imagens com Múltiplas Referências Visuais

MultiRef: Controllable Image Generation with Multiple Visual References

August 9, 2025
Autores: Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna
cs.AI

Resumo

Designers visuais naturalmente buscam inspiração em múltiplas referências visuais, combinando diversos elementos e princípios estéticos para criar obras de arte. No entanto, os frameworks atuais de geração de imagens dependem predominantemente de entradas de fonte única — seja prompts de texto ou imagens de referência individuais. Neste artigo, focamos na tarefa de geração de imagens controlada utilizando múltiplas referências visuais. Introduzimos o MultiRef-bench, um rigoroso framework de avaliação composto por 990 amostras sintéticas e 1.000 amostras do mundo real que exigem a incorporação de conteúdo visual de múltiplas imagens de referência. As amostras sintéticas são geradas sinteticamente por meio de nosso mecanismo de dados RefBlend, com 10 tipos de referência e 33 combinações de referência. Com base no RefBlend, construímos ainda um conjunto de dados MultiRef contendo 38 mil imagens de alta qualidade para facilitar pesquisas futuras. Nossos experimentos em três modelos intercalados de imagem-texto (ou seja, OmniGen, ACE e Show-o) e seis frameworks agentivos (por exemplo, ChatDiT e LLM + SD) revelam que mesmo os sistemas mais avançados enfrentam dificuldades com o condicionamento de múltiplas referências, com o melhor modelo, OmniGen, alcançando apenas 66,6% nas amostras sintéticas e 79,0% nos casos do mundo real, em média, em comparação com a resposta ideal. Essas descobertas fornecem direções valiosas para o desenvolvimento de ferramentas criativas mais flexíveis e semelhantes às humanas, capazes de integrar efetivamente múltiplas fontes de inspiração visual. O conjunto de dados está publicamente disponível em: https://multiref.github.io/.
English
Visual designers naturally draw inspiration from multiple visual references, combining diverse elements and aesthetic principles to create artwork. However, current image generative frameworks predominantly rely on single-source inputs -- either text prompts or individual reference images. In this paper, we focus on the task of controllable image generation using multiple visual references. We introduce MultiRef-bench, a rigorous evaluation framework comprising 990 synthetic and 1,000 real-world samples that require incorporating visual content from multiple reference images. The synthetic samples are synthetically generated through our data engine RefBlend, with 10 reference types and 33 reference combinations. Based on RefBlend, we further construct a dataset MultiRef containing 38k high-quality images to facilitate further research. Our experiments across three interleaved image-text models (i.e., OmniGen, ACE, and Show-o) and six agentic frameworks (e.g., ChatDiT and LLM + SD) reveal that even state-of-the-art systems struggle with multi-reference conditioning, with the best model OmniGen achieving only 66.6% in synthetic samples and 79.0% in real-world cases on average compared to the golden answer. These findings provide valuable directions for developing more flexible and human-like creative tools that can effectively integrate multiple sources of visual inspiration. The dataset is publicly available at: https://multiref.github.io/.
PDF212August 20, 2025