적응형 질의 증강을 통한 멀티모달 임베더의 질의 증강 시점 학습
Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation
November 4, 2025
저자: Wongyu Kim, Hochang Lee, Sanghak Lee, Yoonsung Kim, Jaehyun Park
cs.AI
초록
쿼리 증강은 관련 문서를 찾기 위해 쿼리에 추가 정보를 부착함으로써 쿼리를 더욱 의미 있게 만듭니다. 최근 연구에서는 LLM(대형 언어 모델)의 생성 능력을 활용하여 임베딩을 위한 표현 학습과 쿼리 증강을 위한 생성을 다중 작업 방식으로 학습하는 LLM 기반 임베더를 제안했습니다. 추론 단계에서 이러한 공동 학습 임베더는 쿼리 증강 후 임베딩을 수행하며 효과적인 결과를 보여주었습니다. 그러나 모든 쿼리를 증강하면 상당한 임베딩 지연이 발생하며, 일부 쿼리에 대해서는 증강이 성능에 부정적일 수 있습니다. 또한 기존 방법들은 멀티모달 환경에서 탐구되지 않았습니다. 이러한 문제를 해결하기 위해 우리는 쿼리 증강 시점을 적응적으로 결정할 수 있는 범용 멀티모달 임베더인 M-Solomon을 제안합니다. 우리의 접근 방식은 먼저 훈련 데이터셋의 쿼리를 데이터셋 수준에서 두 그룹으로 나눕니다. 하나는 증강이 필요한 쿼리를, 다른 하나는 증강이 필요하지 않은 쿼리를 포함합니다. 그런 다음 강력한 MLLM(멀티모달 LLM)을 활용하여 증강이 필요한 쿼리에 적합한 증강문을 생성하는 합성 과정을 도입합니다. 다음으로 적응형 쿼리 증강을 제시합니다. 이 단계를 통해 M-Solomon은 증강이 필요한 쿼리에 대해서는 /augment 접두사를 가진 합성 증강문을 생성하고, 그 외 쿼리에 대해서는 간단한 문자열 /embed를 생성하도록 학습함으로써 필요할 때만 쿼리 증강을 수행할 수 있습니다. 실험 결과, M-Solomon은 증강을 사용하지 않은 기준선을 큰 차이로 능가할 뿐만 아니라 항상 증강을 사용한 기준선보다도 성능이 우수하며 훨씬 더 빠른 임베딩 지연 시간을 제공하는 것으로 나타났습니다.
English
Query augmentation makes queries more meaningful by appending further
information to the queries to find relevant documents. Current studies have
proposed Large Language Model (LLM)-based embedders, which learn representation
for embedding and generation for query augmentation in a multi-task manner by
leveraging the generative capabilities of LLM. During inference, these jointly
trained embedders have conducted query augmentation followed by embedding,
showing effective results. However, augmenting every query leads to substantial
embedding latency and query augmentation can be detrimental to performance for
some queries. Also, previous methods have not been explored in multimodal
environments. To tackle these problems, we propose M-Solomon, a universal
multimodal embedder that can adaptively determine when to augment queries. Our
approach first divides the queries of the training datasets into two groups at
the dataset level. One includes queries that require augmentation and the other
includes queries that do not. Then, we introduces a synthesis process that
generates appropriate augmentations for queries that require them by leveraging
a powerful Multimodal LLM (MLLM). Next, we present adaptive query augmentation.
Through this step, M-Solomon can conduct query augmentation only when necessary
by learning to generate synthetic augmentations with the prefix /augment for
queries that demand them and to generate the simple string /embed for others.
Experimental results showed that M-Solomon not only surpassed the baseline
without augmentation by a large margin but also outperformed the baseline that
always used augmentation, providing much faster embedding latency.