ChatPaper.aiChatPaper

マルチモーダルプロンプト最適化:MLLMのための複数モダリティ活用の可能性

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

October 10, 2025
著者: Yumin Choi, Dongki Kim, Jinheon Baek, Sung Ju Hwang
cs.AI

要旨

大規模言語モデル(LLMs)は顕著な成功を収めており、そのマルチモーダル拡張(MLLMs)は、テキストを超えて画像、動画、その他のモダリティにわたる能力をさらに解放している。しかし、この変化にもかかわらず、手動でのプロンプト作成の負担を軽減しつつ性能を最大化するために設計されたプロンプト最適化手法は、依然としてテキストに限定されており、結果としてMLLMsの真の潜在能力を制限している。このギャップに動機づけられ、我々はマルチモーダルプロンプト最適化という新たな問題を提示する。これは、テキストと非テキストのプロンプトのペアによって定義されるマルチモーダル空間に、従来のプロンプト最適化の定義を拡張するものである。この問題に対処するため、我々はマルチモーダルプロンプトオプティマイザ(MPO)を提案する。MPOは、アライメントを保持した更新を通じてマルチモーダルプロンプトの共同最適化を行うだけでなく、ベイズに基づく選択戦略において、以前の評価を事前情報として活用することで、候補プロンプトの選択プロセスを導く統一フレームワークである。テキストを超えた画像、動画、さらには分子といった多様なモダリティにわたる広範な実験を通じて、MPOがテキストのみの最適化手法を凌駕することを示し、MLLMsの潜在能力を実現するための重要なステップとしてマルチモーダルプロンプト最適化を確立する。
English
Large Language Models (LLMs) have shown remarkable success, and their multimodal expansions (MLLMs) further unlock capabilities spanning images, videos, and other modalities beyond text. However, despite this shift, prompt optimization approaches, designed to reduce the burden of manual prompt crafting while maximizing performance, remain confined to text, ultimately limiting the full potential of MLLMs. Motivated by this gap, we introduce the new problem of multimodal prompt optimization, which expands the prior definition of prompt optimization to the multimodal space defined by the pairs of textual and non-textual prompts. To tackle this problem, we then propose the Multimodal Prompt Optimizer (MPO), a unified framework that not only performs the joint optimization of multimodal prompts through alignment-preserving updates but also guides the selection process of candidate prompts by leveraging earlier evaluations as priors in a Bayesian-based selection strategy. Through extensive experiments across diverse modalities that go beyond text, such as images, videos, and even molecules, we demonstrate that MPO outperforms leading text-only optimization methods, establishing multimodal prompt optimization as a crucial step to realizing the potential of MLLMs.
PDF465October 13, 2025