Optimisation des invites multimodales : Pourquoi ne pas exploiter les multiples modalités pour les MLLMs ?

papers.abstract

Les modèles de langage de grande taille (LLMs) ont démontré un succès remarquable, et leurs extensions multimodales (MLLMs) débloquent davantage de capacités couvrant les images, les vidéos et d’autres modalités au-delà du texte. Cependant, malgré cette évolution, les approches d’optimisation des prompts, conçues pour réduire la charge de la création manuelle de prompts tout en maximisant les performances, restent confinées au texte, limitant ainsi le plein potentiel des MLLMs. Motivés par cette lacune, nous introduisons le nouveau problème de l’optimisation multimodale des prompts, qui étend la définition précédente de l’optimisation des prompts à l’espace multimodal défini par les paires de prompts textuels et non textuels. Pour résoudre ce problème, nous proposons ensuite l’Optimiseur de Prompts Multimodaux (MPO), un cadre unifié qui non seulement effectue l’optimisation conjointe des prompts multimodaux via des mises à jour préservant l’alignement, mais guide également le processus de sélection des prompts candidats en exploitant les évaluations antérieures comme a priori dans une stratégie de sélection basée sur l’approche bayésienne. À travers des expériences approfondies couvrant diverses modalités allant au-delà du texte, telles que les images, les vidéos et même les molécules, nous démontrons que MPO surpasse les principales méthodes d’optimisation textuelles, établissant ainsi l’optimisation multimodale des prompts comme une étape cruciale pour réaliser le potentiel des MLLMs.

English

Large Language Models (LLMs) have shown remarkable success, and their multimodal expansions (MLLMs) further unlock capabilities spanning images, videos, and other modalities beyond text. However, despite this shift, prompt optimization approaches, designed to reduce the burden of manual prompt crafting while maximizing performance, remain confined to text, ultimately limiting the full potential of MLLMs. Motivated by this gap, we introduce the new problem of multimodal prompt optimization, which expands the prior definition of prompt optimization to the multimodal space defined by the pairs of textual and non-textual prompts. To tackle this problem, we then propose the Multimodal Prompt Optimizer (MPO), a unified framework that not only performs the joint optimization of multimodal prompts through alignment-preserving updates but also guides the selection process of candidate prompts by leveraging earlier evaluations as priors in a Bayesian-based selection strategy. Through extensive experiments across diverse modalities that go beyond text, such as images, videos, and even molecules, we demonstrate that MPO outperforms leading text-only optimization methods, establishing multimodal prompt optimization as a crucial step to realizing the potential of MLLMs.

Optimisation des invites multimodales : Pourquoi ne pas exploiter les multiples modalités pour les MLLMs ?

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

papers.abstract

Support