Optimisation des invites multimodales : Pourquoi ne pas exploiter les multiples modalités pour les MLLMs ?
Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs
October 10, 2025
papers.authors: Yumin Choi, Dongki Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) ont démontré un succès remarquable, et leurs extensions multimodales (MLLMs) débloquent davantage de capacités couvrant les images, les vidéos et d’autres modalités au-delà du texte. Cependant, malgré cette évolution, les approches d’optimisation des prompts, conçues pour réduire la charge de la création manuelle de prompts tout en maximisant les performances, restent confinées au texte, limitant ainsi le plein potentiel des MLLMs. Motivés par cette lacune, nous introduisons le nouveau problème de l’optimisation multimodale des prompts, qui étend la définition précédente de l’optimisation des prompts à l’espace multimodal défini par les paires de prompts textuels et non textuels. Pour résoudre ce problème, nous proposons ensuite l’Optimiseur de Prompts Multimodaux (MPO), un cadre unifié qui non seulement effectue l’optimisation conjointe des prompts multimodaux via des mises à jour préservant l’alignement, mais guide également le processus de sélection des prompts candidats en exploitant les évaluations antérieures comme a priori dans une stratégie de sélection basée sur l’approche bayésienne. À travers des expériences approfondies couvrant diverses modalités allant au-delà du texte, telles que les images, les vidéos et même les molécules, nous démontrons que MPO surpasse les principales méthodes d’optimisation textuelles, établissant ainsi l’optimisation multimodale des prompts comme une étape cruciale pour réaliser le potentiel des MLLMs.
English
Large Language Models (LLMs) have shown remarkable success, and their
multimodal expansions (MLLMs) further unlock capabilities spanning images,
videos, and other modalities beyond text. However, despite this shift, prompt
optimization approaches, designed to reduce the burden of manual prompt
crafting while maximizing performance, remain confined to text, ultimately
limiting the full potential of MLLMs. Motivated by this gap, we introduce the
new problem of multimodal prompt optimization, which expands the prior
definition of prompt optimization to the multimodal space defined by the pairs
of textual and non-textual prompts. To tackle this problem, we then propose the
Multimodal Prompt Optimizer (MPO), a unified framework that not only performs
the joint optimization of multimodal prompts through alignment-preserving
updates but also guides the selection process of candidate prompts by
leveraging earlier evaluations as priors in a Bayesian-based selection
strategy. Through extensive experiments across diverse modalities that go
beyond text, such as images, videos, and even molecules, we demonstrate that
MPO outperforms leading text-only optimization methods, establishing multimodal
prompt optimization as a crucial step to realizing the potential of MLLMs.