창의적 생성을 위한 VLM 기반 적응형 네거티브 프롬프팅
VLM-Guided Adaptive Negative Prompting for Creative Generation
October 12, 2025
저자: Shelly Golan, Yotam Nitzan, Zongze Wu, Or Patashnik
cs.AI
초록
창의적 생성은 사용자 의도를 반영하면서도 미리 예상할 수 없는 새롭고 놀라우며 가치 있는 샘플을 합성하는 과정입니다. 이 작업은 인간의 상상력을 확장하여 익숙한 영역 사이의 미탐구 공간에 존재하는 시각적 개념을 발견할 수 있도록 하는 것을 목표로 합니다. 텍스트-이미지 확산 모델은 사용자 프롬프트에 충실하게 부합하는 사실적인 장면을 렌더링하는 데 뛰어나지만, 진정으로 새로운 콘텐츠를 생성하는 데는 여전히 어려움을 겪고 있습니다. 기존의 창의적 생성 능력을 향상시키기 위한 접근법들은 이미지 특징의 보간에 의존하여 탐색을 미리 정의된 범주로 제한하거나, 임베딩 최적화나 모델 미세 조정과 같은 시간이 많이 소요되는 절차를 필요로 합니다. 우리는 VLM-가이드 적응형 네거티브 프롬프팅(VLM-Guided Adaptive Negative-Prompting)을 제안합니다. 이는 훈련이 필요 없으며 추론 시점에 적용되는 방법으로, 생성된 객체의 유효성을 유지하면서 창의적인 이미지 생성을 촉진합니다. 우리의 접근법은 생성 과정의 중간 출력을 분석하고 이를 전통적인 시각적 개념에서 벗어나도록 적응적으로 조정하여 새롭고 놀라운 출력의 출현을 장려하는 시각-언어 모델(VLM)을 활용합니다. 우리는 CLIP 임베딩 공간에서의 통계적 지표를 사용하여 창의성을 새로움과 유효성 측면에서 평가합니다. 광범위한 실험을 통해 우리는 계산 오버헤드를 거의 발생시키지 않으면서도 창의적 새로움에서 일관된 향상을 보여줍니다. 더욱이, 기존의 방법들이 주로 단일 객체를 생성하는 데 초점을 맞추는 반면, 우리의 접근법은 창의적인 객체들의 일관된 집합을 생성하거나 복잡한 구성 프롬프트 내에서 창의성을 유지하는 것과 같은 복잡한 시나리오로 확장됩니다. 우리의 방법은 기존의 확산 파이프라인에 원활하게 통합되어 텍스트 설명의 제약을 넘어서는 창의적인 출력을 생산하는 실용적인 경로를 제공합니다.
English
Creative generation is the synthesis of new, surprising, and valuable samples
that reflect user intent yet cannot be envisioned in advance. This task aims to
extend human imagination, enabling the discovery of visual concepts that exist
in the unexplored spaces between familiar domains. While text-to-image
diffusion models excel at rendering photorealistic scenes that faithfully match
user prompts, they still struggle to generate genuinely novel content. Existing
approaches to enhance generative creativity either rely on interpolation of
image features, which restricts exploration to predefined categories, or
require time-intensive procedures such as embedding optimization or model
fine-tuning. We propose VLM-Guided Adaptive Negative-Prompting, a
training-free, inference-time method that promotes creative image generation
while preserving the validity of the generated object. Our approach utilizes a
vision-language model (VLM) that analyzes intermediate outputs of the
generation process and adaptively steers it away from conventional visual
concepts, encouraging the emergence of novel and surprising outputs. We
evaluate creativity through both novelty and validity, using statistical
metrics in the CLIP embedding space. Through extensive experiments, we show
consistent gains in creative novelty with negligible computational overhead.
Moreover, unlike existing methods that primarily generate single objects, our
approach extends to complex scenarios, such as generating coherent sets of
creative objects and preserving creativity within elaborate compositional
prompts. Our method integrates seamlessly into existing diffusion pipelines,
offering a practical route to producing creative outputs that venture beyond
the constraints of textual descriptions.