VLM-Gestuurde Adaptieve Negatieve Prompting voor Creatieve Generatie
VLM-Guided Adaptive Negative Prompting for Creative Generation
October 12, 2025
Auteurs: Shelly Golan, Yotam Nitzan, Zongze Wu, Or Patashnik
cs.AI
Samenvatting
Creatieve generatie is de synthese van nieuwe, verrassende en waardevolle voorbeelden die de gebruikersintentie weerspiegelen, maar niet van tevoren kunnen worden bedacht. Deze taak heeft als doel de menselijke verbeeldingskracht uit te breiden, waardoor de ontdekking van visuele concepten mogelijk wordt die bestaan in de onontgonnen ruimtes tussen bekende domeinen. Hoewel tekst-naar-beeld diffusiemodellen uitblinken in het renderen van fotorealistische scènes die nauwkeurig aansluiten bij gebruikersprompts, hebben ze nog steeds moeite met het genereren van echt nieuw materiaal. Bestaande benaderingen om generatieve creativiteit te verbeteren, zijn ofwel gebaseerd op interpolatie van beeldkenmerken, wat de verkenning beperkt tot vooraf gedefinieerde categorieën, of vereisen tijdrovende procedures zoals embeddingoptimalisatie of modelafstemming. Wij stellen VLM-Guided Adaptive Negative-Prompting voor, een trainingsvrije, inferentie-tijd methode die creatieve beeldgeneratie bevordert terwijl de geldigheid van het gegenereerde object behouden blijft. Onze aanpak maakt gebruik van een vision-language model (VLM) dat tussenliggende uitkomsten van het generatieproces analyseert en het proces adaptief wegstuurt van conventionele visuele concepten, waardoor het ontstaan van nieuwe en verrassende uitkomsten wordt gestimuleerd. We evalueren creativiteit aan de hand van zowel nieuwigheid als geldigheid, met behulp van statistische metrieken in de CLIP-embeddingruimte. Door uitgebreide experimenten tonen we consistente verbeteringen in creatieve nieuwigheid aan met verwaarloosbare rekenkundige overhead. Bovendien, in tegenstelling tot bestaande methoden die voornamelijk enkele objecten genereren, breidt onze aanpak zich uit tot complexe scenario's, zoals het genereren van samenhangende sets van creatieve objecten en het behouden van creativiteit binnen uitgebreide compositorische prompts. Onze methode integreert naadloos in bestaande diffusiepijplijnen en biedt een praktische route naar het produceren van creatieve uitkomsten die verder gaan dan de beperkingen van tekstuele beschrijvingen.
English
Creative generation is the synthesis of new, surprising, and valuable samples
that reflect user intent yet cannot be envisioned in advance. This task aims to
extend human imagination, enabling the discovery of visual concepts that exist
in the unexplored spaces between familiar domains. While text-to-image
diffusion models excel at rendering photorealistic scenes that faithfully match
user prompts, they still struggle to generate genuinely novel content. Existing
approaches to enhance generative creativity either rely on interpolation of
image features, which restricts exploration to predefined categories, or
require time-intensive procedures such as embedding optimization or model
fine-tuning. We propose VLM-Guided Adaptive Negative-Prompting, a
training-free, inference-time method that promotes creative image generation
while preserving the validity of the generated object. Our approach utilizes a
vision-language model (VLM) that analyzes intermediate outputs of the
generation process and adaptively steers it away from conventional visual
concepts, encouraging the emergence of novel and surprising outputs. We
evaluate creativity through both novelty and validity, using statistical
metrics in the CLIP embedding space. Through extensive experiments, we show
consistent gains in creative novelty with negligible computational overhead.
Moreover, unlike existing methods that primarily generate single objects, our
approach extends to complex scenarios, such as generating coherent sets of
creative objects and preserving creativity within elaborate compositional
prompts. Our method integrates seamlessly into existing diffusion pipelines,
offering a practical route to producing creative outputs that venture beyond
the constraints of textual descriptions.