Адаптивное негативное управление с использованием VLM для креативной генерации

Аннотация

Генерация творческого контента представляет собой синтез новых, удивительных и ценных образцов, которые отражают намерения пользователя, но не могут быть заранее предсказаны. Эта задача направлена на расширение человеческого воображения, позволяя открывать визуальные концепции, существующие в неизведанных пространствах между знакомыми областями. Хотя модели диффузии текст-изображение преуспевают в создании фотореалистичных сцен, точно соответствующих запросам пользователя, они всё ещё испытывают трудности с генерацией по-настоящему нового контента. Существующие подходы для повышения творческой генерации либо полагаются на интерполяцию признаков изображений, что ограничивает исследование предопределёнными категориями, либо требуют трудоёмких процедур, таких как оптимизация встраиваний или тонкая настройка модели. Мы предлагаем метод VLM-Guided Adaptive Negative-Prompting, который не требует обучения и работает на этапе вывода, способствуя творческой генерации изображений при сохранении валидности создаваемого объекта. Наш подход использует модель "визуальный язык" (VLM), которая анализирует промежуточные результаты процесса генерации и адаптивно направляет его в сторону от традиционных визуальных концепций, стимулируя появление новых и удивительных результатов. Мы оцениваем творчество через новизну и валидность, используя статистические метрики в пространстве встраиваний CLIP. В ходе обширных экспериментов мы демонстрируем стабильное улучшение творческой новизны с минимальными вычислительными затратами. Более того, в отличие от существующих методов, которые в основном генерируют отдельные объекты, наш подход распространяется на сложные сценарии, такие как создание согласованных наборов творческих объектов и сохранение творчества в рамках сложных композиционных запросов. Наш метод легко интегрируется в существующие конвейеры диффузии, предлагая практический путь для создания творческих результатов, выходящих за рамки ограничений текстовых описаний.

English

Creative generation is the synthesis of new, surprising, and valuable samples that reflect user intent yet cannot be envisioned in advance. This task aims to extend human imagination, enabling the discovery of visual concepts that exist in the unexplored spaces between familiar domains. While text-to-image diffusion models excel at rendering photorealistic scenes that faithfully match user prompts, they still struggle to generate genuinely novel content. Existing approaches to enhance generative creativity either rely on interpolation of image features, which restricts exploration to predefined categories, or require time-intensive procedures such as embedding optimization or model fine-tuning. We propose VLM-Guided Adaptive Negative-Prompting, a training-free, inference-time method that promotes creative image generation while preserving the validity of the generated object. Our approach utilizes a vision-language model (VLM) that analyzes intermediate outputs of the generation process and adaptively steers it away from conventional visual concepts, encouraging the emergence of novel and surprising outputs. We evaluate creativity through both novelty and validity, using statistical metrics in the CLIP embedding space. Through extensive experiments, we show consistent gains in creative novelty with negligible computational overhead. Moreover, unlike existing methods that primarily generate single objects, our approach extends to complex scenarios, such as generating coherent sets of creative objects and preserving creativity within elaborate compositional prompts. Our method integrates seamlessly into existing diffusion pipelines, offering a practical route to producing creative outputs that venture beyond the constraints of textual descriptions.

Адаптивное негативное управление с использованием VLM для креативной генерации

VLM-Guided Adaptive Negative Prompting for Creative Generation

Аннотация

Support