ChatPaper.aiChatPaper

Multimodale Promptoptimalisatie: Waarom Niet Meerdere Modaliteiten Benutten voor MLLMs

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

October 10, 2025
Auteurs: Yumin Choi, Dongki Kim, Jinheon Baek, Sung Ju Hwang
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) hebben opmerkelijke successen geboekt, en hun multimodale uitbreidingen (MLLM's) ontsluiten verder mogelijkheden die zich uitstrekken over afbeeldingen, video's en andere modaliteiten naast tekst. Desondanks blijven promptoptimalisatiebenaderingen, die zijn ontworpen om de last van handmatige promptcreatie te verminderen terwijl de prestaties worden gemaximaliseerd, beperkt tot tekst, wat uiteindelijk het volledige potentieel van MLLM's beperkt. Gemotiveerd door deze kloof introduceren we het nieuwe probleem van multimodale promptoptimalisatie, dat de eerdere definitie van promptoptimalisatie uitbreidt naar de multimodale ruimte die wordt gedefinieerd door de paren van tekstuele en niet-tekstuele prompts. Om dit probleem aan te pakken, stellen we vervolgens de Multimodale Prompt Optimizer (MPO) voor, een uniform raamwerk dat niet alleen de gezamenlijke optimalisatie van multimodale prompts uitvoert door middel van uitlijning-bewarende updates, maar ook het selectieproces van kandidaat-prompts begeleidt door eerdere evaluaties te benutten als priors in een op Bayes gebaseerde selectiestrategie. Door middel van uitgebreide experimenten over diverse modaliteiten die verder gaan dan tekst, zoals afbeeldingen, video's en zelfs moleculen, demonstreren we dat MPO toonaangevende tekst-alleen optimalisatiemethoden overtreft, waardoor multimodale promptoptimalisatie wordt gevestigd als een cruciale stap om het potentieel van MLLM's te realiseren.
English
Large Language Models (LLMs) have shown remarkable success, and their multimodal expansions (MLLMs) further unlock capabilities spanning images, videos, and other modalities beyond text. However, despite this shift, prompt optimization approaches, designed to reduce the burden of manual prompt crafting while maximizing performance, remain confined to text, ultimately limiting the full potential of MLLMs. Motivated by this gap, we introduce the new problem of multimodal prompt optimization, which expands the prior definition of prompt optimization to the multimodal space defined by the pairs of textual and non-textual prompts. To tackle this problem, we then propose the Multimodal Prompt Optimizer (MPO), a unified framework that not only performs the joint optimization of multimodal prompts through alignment-preserving updates but also guides the selection process of candidate prompts by leveraging earlier evaluations as priors in a Bayesian-based selection strategy. Through extensive experiments across diverse modalities that go beyond text, such as images, videos, and even molecules, we demonstrate that MPO outperforms leading text-only optimization methods, establishing multimodal prompt optimization as a crucial step to realizing the potential of MLLMs.
PDF465October 13, 2025