ChatPaper.aiChatPaper

Generación Creativa con Indicaciones Negativas Adaptativas Guiadas por VLM

VLM-Guided Adaptive Negative Prompting for Creative Generation

October 12, 2025
Autores: Shelly Golan, Yotam Nitzan, Zongze Wu, Or Patashnik
cs.AI

Resumen

La generación creativa es la síntesis de muestras nuevas, sorprendentes y valiosas que reflejan la intención del usuario pero que no pueden ser anticipadas de antemano. Esta tarea busca ampliar la imaginación humana, permitiendo el descubrimiento de conceptos visuales que existen en los espacios inexplorados entre dominios familiares. Si bien los modelos de difusión de texto a imagen sobresalen en la representación de escenas fotorrealistas que coinciden fielmente con las indicaciones del usuario, aún tienen dificultades para generar contenido genuinamente novedoso. Los enfoques existentes para mejorar la creatividad generativa dependen de la interpolación de características de imagen, lo que limita la exploración a categorías predefinidas, o requieren procedimientos que consumen mucho tiempo, como la optimización de incrustaciones o el ajuste fino del modelo. Proponemos el "Negative-Prompting Adaptativo Guiado por VLM", un método sin entrenamiento y en tiempo de inferencia que fomenta la generación creativa de imágenes mientras preserva la validez del objeto generado. Nuestro enfoque utiliza un modelo de visión y lenguaje (VLM) que analiza las salidas intermedias del proceso de generación y lo redirige de manera adaptativa lejos de conceptos visuales convencionales, fomentando la aparición de resultados novedosos y sorprendentes. Evaluamos la creatividad a través de la novedad y la validez, utilizando métricas estadísticas en el espacio de incrustaciones CLIP. A través de experimentos extensos, mostramos mejoras consistentes en la novedad creativa con un sobrecargo computacional insignificante. Además, a diferencia de los métodos existentes que principalmente generan objetos individuales, nuestro enfoque se extiende a escenarios complejos, como la generación de conjuntos coherentes de objetos creativos y la preservación de la creatividad dentro de indicaciones compositivas elaboradas. Nuestro método se integra sin problemas en las tuberías de difusión existentes, ofreciendo una ruta práctica para producir resultados creativos que van más allá de las limitaciones de las descripciones textuales.
English
Creative generation is the synthesis of new, surprising, and valuable samples that reflect user intent yet cannot be envisioned in advance. This task aims to extend human imagination, enabling the discovery of visual concepts that exist in the unexplored spaces between familiar domains. While text-to-image diffusion models excel at rendering photorealistic scenes that faithfully match user prompts, they still struggle to generate genuinely novel content. Existing approaches to enhance generative creativity either rely on interpolation of image features, which restricts exploration to predefined categories, or require time-intensive procedures such as embedding optimization or model fine-tuning. We propose VLM-Guided Adaptive Negative-Prompting, a training-free, inference-time method that promotes creative image generation while preserving the validity of the generated object. Our approach utilizes a vision-language model (VLM) that analyzes intermediate outputs of the generation process and adaptively steers it away from conventional visual concepts, encouraging the emergence of novel and surprising outputs. We evaluate creativity through both novelty and validity, using statistical metrics in the CLIP embedding space. Through extensive experiments, we show consistent gains in creative novelty with negligible computational overhead. Moreover, unlike existing methods that primarily generate single objects, our approach extends to complex scenarios, such as generating coherent sets of creative objects and preserving creativity within elaborate compositional prompts. Our method integrates seamlessly into existing diffusion pipelines, offering a practical route to producing creative outputs that venture beyond the constraints of textual descriptions.
PDF32October 14, 2025