Optimización de Indicaciones Multimodales: ¿Por Qué No Aprovechar Múltiples Modalidades para los MLLM?
Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs
October 10, 2025
Autores: Yumin Choi, Dongki Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un éxito notable, y sus expansiones multimodales (MLLMs) desbloquean aún más capacidades que abarcan imágenes, videos y otras modalidades más allá del texto. Sin embargo, a pesar de este cambio, los enfoques de optimización de prompts, diseñados para reducir la carga de la creación manual de prompts mientras maximizan el rendimiento, siguen limitados al texto, lo que finalmente restringe el potencial completo de los MLLMs. Motivados por esta brecha, introducimos el nuevo problema de la optimización multimodal de prompts, que amplía la definición previa de optimización de prompts al espacio multimodal definido por los pares de prompts textuales y no textuales. Para abordar este problema, proponemos el Optimizador de Prompts Multimodal (MPO, por sus siglas en inglés), un marco unificado que no solo realiza la optimización conjunta de prompts multimodales mediante actualizaciones que preservan la alineación, sino que también guía el proceso de selección de prompts candidatos aprovechando evaluaciones previas como priors en una estrategia de selección basada en enfoques bayesianos. A través de experimentos exhaustivos en diversas modalidades que van más allá del texto, como imágenes, videos e incluso moléculas, demostramos que el MPO supera a los principales métodos de optimización basados únicamente en texto, estableciendo la optimización multimodal de prompts como un paso crucial para materializar el potencial de los MLLMs.
English
Large Language Models (LLMs) have shown remarkable success, and their
multimodal expansions (MLLMs) further unlock capabilities spanning images,
videos, and other modalities beyond text. However, despite this shift, prompt
optimization approaches, designed to reduce the burden of manual prompt
crafting while maximizing performance, remain confined to text, ultimately
limiting the full potential of MLLMs. Motivated by this gap, we introduce the
new problem of multimodal prompt optimization, which expands the prior
definition of prompt optimization to the multimodal space defined by the pairs
of textual and non-textual prompts. To tackle this problem, we then propose the
Multimodal Prompt Optimizer (MPO), a unified framework that not only performs
the joint optimization of multimodal prompts through alignment-preserving
updates but also guides the selection process of candidate prompts by
leveraging earlier evaluations as priors in a Bayesian-based selection
strategy. Through extensive experiments across diverse modalities that go
beyond text, such as images, videos, and even molecules, we demonstrate that
MPO outperforms leading text-only optimization methods, establishing multimodal
prompt optimization as a crucial step to realizing the potential of MLLMs.