멀티모달 프롬프트 최적화: MLLM을 위해 다중 모달리티를 활용하지 않을 이유가 있을까?
Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs
October 10, 2025
저자: Yumin Choi, Dongki Kim, Jinheon Baek, Sung Ju Hwang
cs.AI
초록
대규모 언어 모델(LLMs)은 놀라운 성공을 거두었으며, 이들의 다중모달 확장(MLLMs)은 텍스트를 넘어 이미지, 비디오 등 다양한 모달리티에 걸친 능력을 더욱 개방하고 있습니다. 그러나 이러한 변화에도 불구하고, 수동 프롬프트 작성의 부담을 줄이고 성능을 극대화하기 위해 설계된 프롬프트 최적화 접근법은 여전히 텍스트에 국한되어 있어 MLLMs의 전체 잠재력을 제한하고 있습니다. 이러한 격차를 해소하고자, 우리는 텍스트와 비텍스트 프롬프트 쌍으로 정의된 다중모달 공간으로 프롬프트 최적화의 정의를 확장한 새로운 문제인 다중모달 프롬프트 최적화를 소개합니다. 이 문제를 해결하기 위해, 우리는 다중모달 프롬프트 최적화기(MPO)를 제안합니다. MPO는 정렬 보존 업데이트를 통해 다중모달 프롬프트의 공동 최적화를 수행할 뿐만 아니라, 베이지안 기반 선택 전략에서 이전 평가를 사전 정보로 활용하여 후보 프롬프트의 선택 과정을 안내하는 통합 프레임워크입니다. 텍스트를 넘어 이미지, 비디오, 심지어 분자와 같은 다양한 모달리티에 걸친 광범위한 실험을 통해, 우리는 MPO가 선도적인 텍스트 전용 최적화 방법들을 능가함을 입증하며, 다중모달 프롬프트 최적화가 MLLMs의 잠재력을 실현하기 위한 중요한 단계임을 확립합니다.
English
Large Language Models (LLMs) have shown remarkable success, and their
multimodal expansions (MLLMs) further unlock capabilities spanning images,
videos, and other modalities beyond text. However, despite this shift, prompt
optimization approaches, designed to reduce the burden of manual prompt
crafting while maximizing performance, remain confined to text, ultimately
limiting the full potential of MLLMs. Motivated by this gap, we introduce the
new problem of multimodal prompt optimization, which expands the prior
definition of prompt optimization to the multimodal space defined by the pairs
of textual and non-textual prompts. To tackle this problem, we then propose the
Multimodal Prompt Optimizer (MPO), a unified framework that not only performs
the joint optimization of multimodal prompts through alignment-preserving
updates but also guides the selection process of candidate prompts by
leveraging earlier evaluations as priors in a Bayesian-based selection
strategy. Through extensive experiments across diverse modalities that go
beyond text, such as images, videos, and even molecules, we demonstrate that
MPO outperforms leading text-only optimization methods, establishing multimodal
prompt optimization as a crucial step to realizing the potential of MLLMs.