VLM-gesteuertes adaptives Negativ-Prompting für kreative Generierung
VLM-Guided Adaptive Negative Prompting for Creative Generation
October 12, 2025
papers.authors: Shelly Golan, Yotam Nitzan, Zongze Wu, Or Patashnik
cs.AI
papers.abstract
Kreative Generierung ist die Synthese neuer, überraschender und wertvoller Beispiele, die die Benutzerabsicht widerspiegeln, jedoch im Voraus nicht vorstellbar sind. Diese Aufgabe zielt darauf ab, die menschliche Vorstellungskraft zu erweitern und die Entdeckung visueller Konzepte zu ermöglichen, die in den unerforschten Räumen zwischen bekannten Domänen existieren. Während Text-zu-Bild-Diffusionsmodelle hervorragend darin sind, fotorealistische Szenen zu rendern, die Benutzeranfragen treu entsprechen, haben sie immer noch Schwierigkeiten, wirklich neuartige Inhalte zu generieren. Bestehende Ansätze zur Steigerung der generativen Kreativität beruhen entweder auf der Interpolation von Bildmerkmalen, was die Exploration auf vordefinierte Kategorien beschränkt, oder erfordern zeitintensive Verfahren wie Embedding-Optimierung oder Modell-Fine-Tuning. Wir schlagen VLM-geführtes adaptives Negativ-Prompting vor, eine trainingsfreie Methode zur Inferenzzeit, die die kreative Bildgenerierung fördert und gleichzeitig die Gültigkeit des generierten Objekts bewahrt. Unser Ansatz nutzt ein Vision-Language-Modell (VLM), das Zwischenergebnisse des Generierungsprozesses analysiert und diesen adaptiv von konventionellen visuellen Konzepten wegsteuert, wodurch das Entstehen neuartiger und überraschender Ergebnisse gefördert wird. Wir bewerten Kreativität sowohl anhand von Neuartigkeit als auch Gültigkeit, indem wir statistische Metriken im CLIP-Embedding-Raum verwenden. Durch umfangreiche Experimente zeigen wir konsistente Gewinne in der kreativen Neuartigkeit mit vernachlässigbarem Rechenaufwand. Darüber hinaus erstreckt sich unser Ansatz, im Gegensatz zu bestehenden Methoden, die hauptsächlich einzelne Objekte generieren, auf komplexe Szenarien, wie die Erzeugung kohärenter Sätze kreativer Objekte und die Bewahrung der Kreativität innerhalb elaborierter Kompositionsanfragen. Unsere Methode integriert sich nahtlos in bestehende Diffusionspipelines und bietet einen praktischen Weg, kreative Ergebnisse zu erzeugen, die über die Grenzen textueller Beschreibungen hinausgehen.
English
Creative generation is the synthesis of new, surprising, and valuable samples
that reflect user intent yet cannot be envisioned in advance. This task aims to
extend human imagination, enabling the discovery of visual concepts that exist
in the unexplored spaces between familiar domains. While text-to-image
diffusion models excel at rendering photorealistic scenes that faithfully match
user prompts, they still struggle to generate genuinely novel content. Existing
approaches to enhance generative creativity either rely on interpolation of
image features, which restricts exploration to predefined categories, or
require time-intensive procedures such as embedding optimization or model
fine-tuning. We propose VLM-Guided Adaptive Negative-Prompting, a
training-free, inference-time method that promotes creative image generation
while preserving the validity of the generated object. Our approach utilizes a
vision-language model (VLM) that analyzes intermediate outputs of the
generation process and adaptively steers it away from conventional visual
concepts, encouraging the emergence of novel and surprising outputs. We
evaluate creativity through both novelty and validity, using statistical
metrics in the CLIP embedding space. Through extensive experiments, we show
consistent gains in creative novelty with negligible computational overhead.
Moreover, unlike existing methods that primarily generate single objects, our
approach extends to complex scenarios, such as generating coherent sets of
creative objects and preserving creativity within elaborate compositional
prompts. Our method integrates seamlessly into existing diffusion pipelines,
offering a practical route to producing creative outputs that venture beyond
the constraints of textual descriptions.