ChatPaper.aiChatPaper

InstanceGen: Geração de Imagens com Instruções em Nível de Instância

InstanceGen: Image Generation with Instance-level Instructions

May 8, 2025
Autores: Etai Sella, Yanir Kleiman, Hadar Averbuch-Elor
cs.AI

Resumo

Apesar dos rápidos avanços nas capacidades dos modelos generativos, os modelos pré-treinados de texto para imagem ainda enfrentam dificuldades em capturar a semântica transmitida por prompts complexos que combinam múltiplos objetos e atributos em nível de instância. Consequentemente, estamos observando um crescente interesse na integração de restrições estruturais adicionais, tipicamente na forma de caixas delimitadoras grosseiras, para melhor guiar o processo de geração nesses casos desafiadores. Neste trabalho, levamos a ideia de orientação estrutural um passo adiante ao observar que os modelos contemporâneos de geração de imagem podem fornecer diretamente uma inicialização estrutural de granularidade fina plausível. Propomos uma técnica que acopla essa orientação estrutural baseada em imagem com instruções em nível de instância baseadas em LLMs, resultando em imagens de saída que aderem a todas as partes do prompt de texto, incluindo contagens de objetos, atributos em nível de instância e relações espaciais entre instâncias.
English
Despite rapid advancements in the capabilities of generative models, pretrained text-to-image models still struggle in capturing the semantics conveyed by complex prompts that compound multiple objects and instance-level attributes. Consequently, we are witnessing growing interests in integrating additional structural constraints, typically in the form of coarse bounding boxes, to better guide the generation process in such challenging cases. In this work, we take the idea of structural guidance a step further by making the observation that contemporary image generation models can directly provide a plausible fine-grained structural initialization. We propose a technique that couples this image-based structural guidance with LLM-based instance-level instructions, yielding output images that adhere to all parts of the text prompt, including object counts, instance-level attributes, and spatial relations between instances.
PDF72December 5, 2025