ChatPaper.aiChatPaper

InstanceGen: Generazione di Immagini con Istruzioni a Livello di Istanza

InstanceGen: Image Generation with Instance-level Instructions

May 8, 2025
Autori: Etai Sella, Yanir Kleiman, Hadar Averbuch-Elor
cs.AI

Abstract

Nonostante i rapidi progressi nelle capacità dei modelli generativi, i modelli preaddestrati di testo-immagine continuano a incontrare difficoltà nel catturare la semantica veicolata da prompt complessi che combinano più oggetti e attributi a livello di istanza. Di conseguenza, stiamo assistendo a un crescente interesse nell'integrazione di vincoli strutturali aggiuntivi, tipicamente sotto forma di bounding box approssimative, per guidare meglio il processo di generazione in questi casi impegnativi. In questo lavoro, portiamo l'idea della guida strutturale un passo avanti osservando che i modelli contemporanei di generazione di immagini possono fornire direttamente un'inizializzazione strutturale dettagliata e plausibile. Proponiamo una tecnica che combina questa guida strutturale basata su immagini con istruzioni a livello di istanza basate su LLM, producendo immagini di output che aderiscono a tutte le parti del prompt testuale, inclusi il numero di oggetti, gli attributi a livello di istanza e le relazioni spaziali tra le istanze.
English
Despite rapid advancements in the capabilities of generative models, pretrained text-to-image models still struggle in capturing the semantics conveyed by complex prompts that compound multiple objects and instance-level attributes. Consequently, we are witnessing growing interests in integrating additional structural constraints, typically in the form of coarse bounding boxes, to better guide the generation process in such challenging cases. In this work, we take the idea of structural guidance a step further by making the observation that contemporary image generation models can directly provide a plausible fine-grained structural initialization. We propose a technique that couples this image-based structural guidance with LLM-based instance-level instructions, yielding output images that adhere to all parts of the text prompt, including object counts, instance-level attributes, and spatial relations between instances.
PDF72May 19, 2025