ChatPaper.aiChatPaper

InstanceGen: Generación de Imágenes con Instrucciones a Nivel de Instancia

InstanceGen: Image Generation with Instance-level Instructions

May 8, 2025
Autores: Etai Sella, Yanir Kleiman, Hadar Averbuch-Elor
cs.AI

Resumen

A pesar de los rápidos avances en las capacidades de los modelos generativos, los modelos preentrenados de texto a imagen aún tienen dificultades para capturar la semántica transmitida por indicaciones complejas que combinan múltiples objetos y atributos a nivel de instancia. En consecuencia, estamos observando un creciente interés en integrar restricciones estructurales adicionales, típicamente en forma de cuadros delimitadores aproximados, para guiar mejor el proceso de generación en estos casos desafiantes. En este trabajo, llevamos la idea de guía estructural un paso más allá al observar que los modelos contemporáneos de generación de imágenes pueden proporcionar directamente una inicialización estructural detallada y plausible. Proponemos una técnica que combina esta guía estructural basada en imágenes con instrucciones a nivel de instancia basadas en modelos de lenguaje grandes (LLM), produciendo imágenes de salida que se adhieren a todas las partes de la indicación de texto, incluyendo el número de objetos, los atributos a nivel de instancia y las relaciones espaciales entre instancias.
English
Despite rapid advancements in the capabilities of generative models, pretrained text-to-image models still struggle in capturing the semantics conveyed by complex prompts that compound multiple objects and instance-level attributes. Consequently, we are witnessing growing interests in integrating additional structural constraints, typically in the form of coarse bounding boxes, to better guide the generation process in such challenging cases. In this work, we take the idea of structural guidance a step further by making the observation that contemporary image generation models can directly provide a plausible fine-grained structural initialization. We propose a technique that couples this image-based structural guidance with LLM-based instance-level instructions, yielding output images that adhere to all parts of the text prompt, including object counts, instance-level attributes, and spatial relations between instances.

Summary

AI-Generated Summary

PDF42May 19, 2025