ChatPaper.aiChatPaper

InstanceGen: Bildgenerierung mit Instanz-spezifischen Anweisungen

InstanceGen: Image Generation with Instance-level Instructions

May 8, 2025
Autoren: Etai Sella, Yanir Kleiman, Hadar Averbuch-Elor
cs.AI

Zusammenfassung

Trotz rasanter Fortschritte in den Fähigkeiten generativer Modelle haben vortrainierte Text-zu-Bild-Modelle nach wie vor Schwierigkeiten, die Semantik komplexer Eingabeaufforderungen zu erfassen, die mehrere Objekte und instanzspezifische Attribute kombinieren. Infolgedessen wächst das Interesse an der Integration zusätzlicher struktureller Beschränkungen, typischerweise in Form von groben Begrenzungsrahmen, um den Generierungsprozess in solch anspruchsvollen Fällen besser zu steuern. In dieser Arbeit gehen wir den Ansatz der strukturellen Führung einen Schritt weiter, indem wir die Beobachtung machen, dass zeitgenössische Bildgenerierungsmodelle direkt eine plausible feingranulare strukturelle Initialisierung liefern können. Wir schlagen eine Technik vor, die diese bildbasierte strukturelle Führung mit instanzspezifischen Anweisungen auf Basis von LLMs (Large Language Models) kombiniert, wodurch Ausgabebilder entstehen, die allen Teilen der Texteingabe entsprechen, einschließlich Objektanzahlen, instanzspezifischen Attributen und räumlichen Beziehungen zwischen Instanzen.
English
Despite rapid advancements in the capabilities of generative models, pretrained text-to-image models still struggle in capturing the semantics conveyed by complex prompts that compound multiple objects and instance-level attributes. Consequently, we are witnessing growing interests in integrating additional structural constraints, typically in the form of coarse bounding boxes, to better guide the generation process in such challenging cases. In this work, we take the idea of structural guidance a step further by making the observation that contemporary image generation models can directly provide a plausible fine-grained structural initialization. We propose a technique that couples this image-based structural guidance with LLM-based instance-level instructions, yielding output images that adhere to all parts of the text prompt, including object counts, instance-level attributes, and spatial relations between instances.

Summary

AI-Generated Summary

PDF42May 19, 2025