Generación Creativa con Indicaciones Negativas Adaptativas Guiadas por VLM
VLM-Guided Adaptive Negative Prompting for Creative Generation
October 12, 2025
Autores: Shelly Golan, Yotam Nitzan, Zongze Wu, Or Patashnik
cs.AI
Resumen
La generación creativa es la síntesis de muestras nuevas, sorprendentes y valiosas que reflejan la intención del usuario pero que no pueden ser anticipadas de antemano. Esta tarea busca ampliar la imaginación humana, permitiendo el descubrimiento de conceptos visuales que existen en los espacios inexplorados entre dominios familiares. Si bien los modelos de difusión de texto a imagen sobresalen en la representación de escenas fotorrealistas que coinciden fielmente con las indicaciones del usuario, aún tienen dificultades para generar contenido genuinamente novedoso. Los enfoques existentes para mejorar la creatividad generativa dependen de la interpolación de características de imagen, lo que limita la exploración a categorías predefinidas, o requieren procedimientos que consumen mucho tiempo, como la optimización de incrustaciones o el ajuste fino del modelo. Proponemos el "Negative-Prompting Adaptativo Guiado por VLM", un método sin entrenamiento y en tiempo de inferencia que fomenta la generación creativa de imágenes mientras preserva la validez del objeto generado. Nuestro enfoque utiliza un modelo de visión y lenguaje (VLM) que analiza las salidas intermedias del proceso de generación y lo redirige de manera adaptativa lejos de conceptos visuales convencionales, fomentando la aparición de resultados novedosos y sorprendentes. Evaluamos la creatividad a través de la novedad y la validez, utilizando métricas estadísticas en el espacio de incrustaciones CLIP. A través de experimentos extensos, mostramos mejoras consistentes en la novedad creativa con un sobrecargo computacional insignificante. Además, a diferencia de los métodos existentes que principalmente generan objetos individuales, nuestro enfoque se extiende a escenarios complejos, como la generación de conjuntos coherentes de objetos creativos y la preservación de la creatividad dentro de indicaciones compositivas elaboradas. Nuestro método se integra sin problemas en las tuberías de difusión existentes, ofreciendo una ruta práctica para producir resultados creativos que van más allá de las limitaciones de las descripciones textuales.
English
Creative generation is the synthesis of new, surprising, and valuable samples
that reflect user intent yet cannot be envisioned in advance. This task aims to
extend human imagination, enabling the discovery of visual concepts that exist
in the unexplored spaces between familiar domains. While text-to-image
diffusion models excel at rendering photorealistic scenes that faithfully match
user prompts, they still struggle to generate genuinely novel content. Existing
approaches to enhance generative creativity either rely on interpolation of
image features, which restricts exploration to predefined categories, or
require time-intensive procedures such as embedding optimization or model
fine-tuning. We propose VLM-Guided Adaptive Negative-Prompting, a
training-free, inference-time method that promotes creative image generation
while preserving the validity of the generated object. Our approach utilizes a
vision-language model (VLM) that analyzes intermediate outputs of the
generation process and adaptively steers it away from conventional visual
concepts, encouraging the emergence of novel and surprising outputs. We
evaluate creativity through both novelty and validity, using statistical
metrics in the CLIP embedding space. Through extensive experiments, we show
consistent gains in creative novelty with negligible computational overhead.
Moreover, unlike existing methods that primarily generate single objects, our
approach extends to complex scenarios, such as generating coherent sets of
creative objects and preserving creativity within elaborate compositional
prompts. Our method integrates seamlessly into existing diffusion pipelines,
offering a practical route to producing creative outputs that venture beyond
the constraints of textual descriptions.