ChatPaper.aiChatPaper

VLM誘導型適応的ネガティブプロンプティングによる創造的生成

VLM-Guided Adaptive Negative Prompting for Creative Generation

October 12, 2025
著者: Shelly Golan, Yotam Nitzan, Zongze Wu, Or Patashnik
cs.AI

要旨

創造的生成とは、ユーザーの意図を反映しながらも事前に予測できない、新しく驚きがあり価値のあるサンプルを合成するプロセスである。このタスクは、人間の想像力を拡張し、既知の領域間の未開拓な空間に存在する視覚的概念を発見することを目指す。テキストから画像への拡散モデルは、ユーザーのプロンプトに忠実に一致するフォトリアルなシーンを描くことに優れているが、真に新しいコンテンツを生成するにはまだ課題がある。既存の生成創造性を高めるアプローチは、画像特徴の補間に依存しており、これにより探索が事前に定義されたカテゴリに制限されるか、埋め込み最適化やモデルのファインチューニングなどの時間を要する手順を必要とする。我々は、VLM-Guided Adaptive Negative-Promptingを提案する。これは、訓練を必要としない推論時の手法であり、生成されたオブジェクトの妥当性を保ちながら、創造的な画像生成を促進する。我々のアプローチは、生成プロセスの中間出力を分析し、従来の視覚的概念から適応的に逸脱させることで、新しく驚きのある出力の出現を促す視覚言語モデル(VLM)を活用する。創造性を新規性と妥当性の両面から評価し、CLIP埋め込み空間における統計的指標を使用する。広範な実験を通じて、計算オーバーヘッドをほとんど伴わずに、創造的新規性の一貫した向上を示す。さらに、既存の手法が主に単一のオブジェクトを生成するのに対し、我々のアプローチは、創造的なオブジェクトの一貫したセットを生成し、複雑な構成的プロンプト内で創造性を維持するといった複雑なシナリオにも拡張可能である。我々の手法は既存の拡散パイプラインにシームレスに統合され、テキスト記述の制約を超えた創造的な出力を生成するための実用的なルートを提供する。
English
Creative generation is the synthesis of new, surprising, and valuable samples that reflect user intent yet cannot be envisioned in advance. This task aims to extend human imagination, enabling the discovery of visual concepts that exist in the unexplored spaces between familiar domains. While text-to-image diffusion models excel at rendering photorealistic scenes that faithfully match user prompts, they still struggle to generate genuinely novel content. Existing approaches to enhance generative creativity either rely on interpolation of image features, which restricts exploration to predefined categories, or require time-intensive procedures such as embedding optimization or model fine-tuning. We propose VLM-Guided Adaptive Negative-Prompting, a training-free, inference-time method that promotes creative image generation while preserving the validity of the generated object. Our approach utilizes a vision-language model (VLM) that analyzes intermediate outputs of the generation process and adaptively steers it away from conventional visual concepts, encouraging the emergence of novel and surprising outputs. We evaluate creativity through both novelty and validity, using statistical metrics in the CLIP embedding space. Through extensive experiments, we show consistent gains in creative novelty with negligible computational overhead. Moreover, unlike existing methods that primarily generate single objects, our approach extends to complex scenarios, such as generating coherent sets of creative objects and preserving creativity within elaborate compositional prompts. Our method integrates seamlessly into existing diffusion pipelines, offering a practical route to producing creative outputs that venture beyond the constraints of textual descriptions.
PDF32October 14, 2025