推論時スケーリングのためのプロンプト設計の再考:テキストから視覚的生成に向けて
Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation
December 3, 2025
著者: Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, Yiran Xu, Difan Liu, Jinwoo Shin, Tobias Hinz
cs.AI
要旨
ユーザーの意図と生成された視覚的出力の正確な一致を実現することは、テキストから視覚的生成における中心的な課題であり、単一の試行では所望の出力が得られないことが多い。この問題に対処するため、従来のアプローチは主に視覚的生成プロセスのスケーリング(例:サンプリングステップ数やシード数の増加)に依存してきたが、これは急速に品質の頭打ち現象を引き起こす。この制限は、生成を誘導する重要な要素であるプロンプトが固定されたままであることに起因する。そこで我々は、推論時にスケーリングされた視覚的生成に応答してプロンプトを適応的に修正するフレームワーク、Prompt Redesign for Inference-time Scaling(PRIS)を提案する。PRISの核心的なアイデアは、生成された視覚コンテンツをレビューし、視覚的出力間で繰り返し発生する失敗パターンを特定し、それに応じてプロンプトを再設計した上で、修正されたプロンプトで視覚的出力を再生成することである。プロンプト修正のための正確な一致フィードバックを提供するため、我々は新しい検証器である要素レベル事実修正を導入する。これはプロンプトの属性と生成された視覚的出力の一致を細粒度レベルで評価し、全体的な評価指標よりも正確で解釈可能な評価を実現する。テキストから画像およびテキストから動画のベンチマークにおける大規模な実験により、本アプローチの有効性が実証され、VBench 2.0において15%の向上を達成した。これらの結果は、プロンプトと視覚的出力の共同スケーリングが、推論時のスケーリング則を最大限に活用する鍵であることを示している。可視化結果は以下のウェブサイトで公開されている:https://subin-kim-cv.github.io/PRIS。
English
Achieving precise alignment between user intent and generated visuals remains a central challenge in text-to-visual generation, as a single attempt often fails to produce the desired output. To handle this, prior approaches mainly scale the visual generation process (e.g., increasing sampling steps or seeds), but this quickly leads to a quality plateau. This limitation arises because the prompt, crucial for guiding generation, is kept fixed. To address this, we propose Prompt Redesign for Inference-time Scaling, coined PRIS, a framework that adaptively revises the prompt during inference in response to the scaled visual generations. The core idea of PRIS is to review the generated visuals, identify recurring failure patterns across visuals, and redesign the prompt accordingly before regenerating the visuals with the revised prompt. To provide precise alignment feedback for prompt revision, we introduce a new verifier, element-level factual correction, which evaluates the alignment between prompt attributes and generated visuals at a fine-grained level, achieving more accurate and interpretable assessments than holistic measures. Extensive experiments on both text-to-image and text-to-video benchmarks demonstrate the effectiveness of our approach, including a 15% gain on VBench 2.0. These results highlight that jointly scaling prompts and visuals is key to fully leveraging scaling laws at inference-time. Visualizations are available at the website: https://subin-kim-cv.github.io/PRIS.