Адаптивное негативное управление с использованием VLM для креативной генерации
VLM-Guided Adaptive Negative Prompting for Creative Generation
October 12, 2025
Авторы: Shelly Golan, Yotam Nitzan, Zongze Wu, Or Patashnik
cs.AI
Аннотация
Генерация творческого контента представляет собой синтез новых, удивительных и ценных образцов, которые отражают намерения пользователя, но не могут быть заранее предсказаны. Эта задача направлена на расширение человеческого воображения, позволяя открывать визуальные концепции, существующие в неизведанных пространствах между знакомыми областями. Хотя модели диффузии текст-изображение преуспевают в создании фотореалистичных сцен, точно соответствующих запросам пользователя, они всё ещё испытывают трудности с генерацией по-настоящему нового контента. Существующие подходы для повышения творческой генерации либо полагаются на интерполяцию признаков изображений, что ограничивает исследование предопределёнными категориями, либо требуют трудоёмких процедур, таких как оптимизация встраиваний или тонкая настройка модели. Мы предлагаем метод VLM-Guided Adaptive Negative-Prompting, который не требует обучения и работает на этапе вывода, способствуя творческой генерации изображений при сохранении валидности создаваемого объекта. Наш подход использует модель "визуальный язык" (VLM), которая анализирует промежуточные результаты процесса генерации и адаптивно направляет его в сторону от традиционных визуальных концепций, стимулируя появление новых и удивительных результатов. Мы оцениваем творчество через новизну и валидность, используя статистические метрики в пространстве встраиваний CLIP. В ходе обширных экспериментов мы демонстрируем стабильное улучшение творческой новизны с минимальными вычислительными затратами. Более того, в отличие от существующих методов, которые в основном генерируют отдельные объекты, наш подход распространяется на сложные сценарии, такие как создание согласованных наборов творческих объектов и сохранение творчества в рамках сложных композиционных запросов. Наш метод легко интегрируется в существующие конвейеры диффузии, предлагая практический путь для создания творческих результатов, выходящих за рамки ограничений текстовых описаний.
English
Creative generation is the synthesis of new, surprising, and valuable samples
that reflect user intent yet cannot be envisioned in advance. This task aims to
extend human imagination, enabling the discovery of visual concepts that exist
in the unexplored spaces between familiar domains. While text-to-image
diffusion models excel at rendering photorealistic scenes that faithfully match
user prompts, they still struggle to generate genuinely novel content. Existing
approaches to enhance generative creativity either rely on interpolation of
image features, which restricts exploration to predefined categories, or
require time-intensive procedures such as embedding optimization or model
fine-tuning. We propose VLM-Guided Adaptive Negative-Prompting, a
training-free, inference-time method that promotes creative image generation
while preserving the validity of the generated object. Our approach utilizes a
vision-language model (VLM) that analyzes intermediate outputs of the
generation process and adaptively steers it away from conventional visual
concepts, encouraging the emergence of novel and surprising outputs. We
evaluate creativity through both novelty and validity, using statistical
metrics in the CLIP embedding space. Through extensive experiments, we show
consistent gains in creative novelty with negligible computational overhead.
Moreover, unlike existing methods that primarily generate single objects, our
approach extends to complex scenarios, such as generating coherent sets of
creative objects and preserving creativity within elaborate compositional
prompts. Our method integrates seamlessly into existing diffusion pipelines,
offering a practical route to producing creative outputs that venture beyond
the constraints of textual descriptions.