ChatPaper.aiChatPaper

InstanceGen : Génération d'images avec des instructions au niveau des instances

InstanceGen: Image Generation with Instance-level Instructions

May 8, 2025
Auteurs: Etai Sella, Yanir Kleiman, Hadar Averbuch-Elor
cs.AI

Résumé

Malgré les avancées rapides des capacités des modèles génératifs, les modèles pré-entraînés de génération d'images à partir de texte peinent encore à capturer la sémantique véhiculée par des prompts complexes combinant plusieurs objets et attributs au niveau des instances. Par conséquent, nous observons un intérêt croissant pour l'intégration de contraintes structurelles supplémentaires, généralement sous la forme de boîtes englobantes grossières, afin de mieux guider le processus de génération dans ces cas difficiles. Dans ce travail, nous poussons l'idée de guidage structurel un peu plus loin en constatant que les modèles contemporains de génération d'images peuvent directement fournir une initialisation structurelle fine et plausible. Nous proposons une technique qui associe ce guidage structurel basé sur l'image à des instructions au niveau des instances générées par des modèles de langage (LLM), produisant ainsi des images qui respectent toutes les parties du prompt textuel, y compris le nombre d'objets, les attributs au niveau des instances et les relations spatiales entre les instances.
English
Despite rapid advancements in the capabilities of generative models, pretrained text-to-image models still struggle in capturing the semantics conveyed by complex prompts that compound multiple objects and instance-level attributes. Consequently, we are witnessing growing interests in integrating additional structural constraints, typically in the form of coarse bounding boxes, to better guide the generation process in such challenging cases. In this work, we take the idea of structural guidance a step further by making the observation that contemporary image generation models can directly provide a plausible fine-grained structural initialization. We propose a technique that couples this image-based structural guidance with LLM-based instance-level instructions, yielding output images that adhere to all parts of the text prompt, including object counts, instance-level attributes, and spatial relations between instances.

Summary

AI-Generated Summary

PDF42May 19, 2025