ChatPaper.aiChatPaper

InstanceGen: Afbeeldingsgeneratie met instructies op instantieniveau

InstanceGen: Image Generation with Instance-level Instructions

May 8, 2025
Auteurs: Etai Sella, Yanir Kleiman, Hadar Averbuch-Elor
cs.AI

Samenvatting

Ondanks de snelle vooruitgang in de mogelijkheden van generatieve modellen, hebben vooraf getrainde tekst-naar-beeldmodellen nog steeds moeite met het vastleggen van de semantiek die wordt overgebracht door complexe prompts die meerdere objecten en attributen op instanceniveau combineren. Als gevolg hiervan zien we een groeiende interesse in het integreren van extra structurele beperkingen, meestal in de vorm van ruwe begrenzingsvakken, om het generatieproces in dergelijke uitdagende gevallen beter te sturen. In dit werk nemen we het idee van structurele begeleiding een stap verder door de observatie te maken dat hedendaagse beeldgeneratiemodellen direct een plausibele fijnmazige structurele initialisatie kunnen bieden. We stellen een techniek voor die deze beeldgebaseerde structurele begeleiding koppelt aan LLM-gebaseerde instructies op instanceniveau, wat resulteert in uitvoerbeelden die voldoen aan alle delen van de tekstprompt, inclusief objectaantallen, attributen op instanceniveau en ruimtelijke relaties tussen instanties.
English
Despite rapid advancements in the capabilities of generative models, pretrained text-to-image models still struggle in capturing the semantics conveyed by complex prompts that compound multiple objects and instance-level attributes. Consequently, we are witnessing growing interests in integrating additional structural constraints, typically in the form of coarse bounding boxes, to better guide the generation process in such challenging cases. In this work, we take the idea of structural guidance a step further by making the observation that contemporary image generation models can directly provide a plausible fine-grained structural initialization. We propose a technique that couples this image-based structural guidance with LLM-based instance-level instructions, yielding output images that adhere to all parts of the text prompt, including object counts, instance-level attributes, and spatial relations between instances.

Summary

AI-Generated Summary

PDF52May 19, 2025