マルチモーダルプロンプト最適化:MLLMのための複数モダリティ活用の可能性
Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs
October 10, 2025
著者: Yumin Choi, Dongki Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
要旨
大規模言語モデル(LLMs)は顕著な成功を収めており、そのマルチモーダル拡張(MLLMs)は、テキストを超えて画像、動画、その他のモダリティにわたる能力をさらに解放している。しかし、この変化にもかかわらず、手動でのプロンプト作成の負担を軽減しつつ性能を最大化するために設計されたプロンプト最適化手法は、依然としてテキストに限定されており、結果としてMLLMsの真の潜在能力を制限している。このギャップに動機づけられ、我々はマルチモーダルプロンプト最適化という新たな問題を提示する。これは、テキストと非テキストのプロンプトのペアによって定義されるマルチモーダル空間に、従来のプロンプト最適化の定義を拡張するものである。この問題に対処するため、我々はマルチモーダルプロンプトオプティマイザ(MPO)を提案する。MPOは、アライメントを保持した更新を通じてマルチモーダルプロンプトの共同最適化を行うだけでなく、ベイズに基づく選択戦略において、以前の評価を事前情報として活用することで、候補プロンプトの選択プロセスを導く統一フレームワークである。テキストを超えた画像、動画、さらには分子といった多様なモダリティにわたる広範な実験を通じて、MPOがテキストのみの最適化手法を凌駕することを示し、MLLMsの潜在能力を実現するための重要なステップとしてマルチモーダルプロンプト最適化を確立する。
English
Large Language Models (LLMs) have shown remarkable success, and their
multimodal expansions (MLLMs) further unlock capabilities spanning images,
videos, and other modalities beyond text. However, despite this shift, prompt
optimization approaches, designed to reduce the burden of manual prompt
crafting while maximizing performance, remain confined to text, ultimately
limiting the full potential of MLLMs. Motivated by this gap, we introduce the
new problem of multimodal prompt optimization, which expands the prior
definition of prompt optimization to the multimodal space defined by the pairs
of textual and non-textual prompts. To tackle this problem, we then propose the
Multimodal Prompt Optimizer (MPO), a unified framework that not only performs
the joint optimization of multimodal prompts through alignment-preserving
updates but also guides the selection process of candidate prompts by
leveraging earlier evaluations as priors in a Bayesian-based selection
strategy. Through extensive experiments across diverse modalities that go
beyond text, such as images, videos, and even molecules, we demonstrate that
MPO outperforms leading text-only optimization methods, establishing multimodal
prompt optimization as a crucial step to realizing the potential of MLLMs.