Otimização de Prompts Multimodais: Por Que Não Aproveitar Múltiplas Modalidades para MLLMs?
Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs
October 10, 2025
Autores: Yumin Choi, Dongki Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado sucesso notável, e suas expansões multimodais (MLLMs) desbloqueiam ainda mais capacidades que abrangem imagens, vídeos e outras modalidades além do texto. No entanto, apesar dessa mudança, as abordagens de otimização de prompts, projetadas para reduzir o fardo da criação manual de prompts enquanto maximizam o desempenho, permanecem restritas ao texto, limitando, em última análise, o potencial completo dos MLLMs. Motivados por essa lacuna, introduzimos o novo problema de otimização de prompts multimodais, que expande a definição anterior de otimização de prompts para o espaço multimodal definido pelos pares de prompts textuais e não textuais. Para enfrentar esse problema, propomos então o Otimizador de Prompts Multimodais (MPO), uma estrutura unificada que não apenas realiza a otimização conjunta de prompts multimodais por meio de atualizações que preservam o alinhamento, mas também orienta o processo de seleção de prompts candidatos ao aproveitar avaliações anteriores como priors em uma estratégia de seleção baseada em Bayes. Por meio de extensos experimentos em diversas modalidades que vão além do texto, como imagens, vídeos e até moléculas, demonstramos que o MPO supera os principais métodos de otimização exclusivamente textuais, estabelecendo a otimização de prompts multimodais como um passo crucial para realizar o potencial dos MLLMs.
English
Large Language Models (LLMs) have shown remarkable success, and their
multimodal expansions (MLLMs) further unlock capabilities spanning images,
videos, and other modalities beyond text. However, despite this shift, prompt
optimization approaches, designed to reduce the burden of manual prompt
crafting while maximizing performance, remain confined to text, ultimately
limiting the full potential of MLLMs. Motivated by this gap, we introduce the
new problem of multimodal prompt optimization, which expands the prior
definition of prompt optimization to the multimodal space defined by the pairs
of textual and non-textual prompts. To tackle this problem, we then propose the
Multimodal Prompt Optimizer (MPO), a unified framework that not only performs
the joint optimization of multimodal prompts through alignment-preserving
updates but also guides the selection process of candidate prompts by
leveraging earlier evaluations as priors in a Bayesian-based selection
strategy. Through extensive experiments across diverse modalities that go
beyond text, such as images, videos, and even molecules, we demonstrate that
MPO outperforms leading text-only optimization methods, establishing multimodal
prompt optimization as a crucial step to realizing the potential of MLLMs.