Deixe os Codificadores Multimodais Aprenderem Quando Aumentar a Consulta via Aumento Adaptativo de Consulta
Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation
November 4, 2025
Autores: Wongyu Kim, Hochang Lee, Sanghak Lee, Yoonsung Kim, Jaehyun Park
cs.AI
Resumo
A ampliação de consultas torna as consultas mais significativas através do acréscimo de informações adicionais para encontrar documentos relevantes. Estudos recentes propuseram sistemas de incorporação baseados em Modelos de Linguagem de Grande Porte (LLM), que aprendem representações para incorporação e geração para ampliação de consultas de forma multitarefa, aproveitando as capacidades generativas dos LLMs. Durante a inferência, esses sistemas de incorporação treinados conjuntamente realizaram ampliação de consultas seguida de incorporação, demonstrando resultados eficazes. No entanto, ampliar todas as consultas resulta em latência de incorporação substancial, e a ampliação de consultas pode ser prejudicial ao desempenho para algumas consultas. Além disso, métodos anteriores não foram explorados em ambientes multimodais. Para enfrentar esses problemas, propomos o M-Solomon, um sistema de incorporação multimodal universal que pode determinar adaptativamente quando ampliar consultas. Nossa abordagem primeiro divide as consultas dos conjuntos de dados de treinamento em dois grupos a nível de conjunto de dados. Um inclui consultas que requerem ampliação e o outro inclui consultas que não requerem. Em seguida, introduzimos um processo de síntese que gera ampliações apropriadas para consultas que as necessitam, aproveitando um poderoso Modelo de Linguagem Multimodal (MLLM). Depois, apresentamos a ampliação adaptativa de consultas. Através desta etapa, o M-Solomon pode realizar ampliação de consultas apenas quando necessário, aprendendo a gerar ampliações sintéticas com o prefixo /augment para consultas que as demandam e a gerar a string simples /embed para as demais. Resultados experimentais mostraram que o M-Solomon não apenas superou a linha de base sem ampliação por uma grande margem, mas também superou a linha de base que sempre usava ampliação, fornecendo uma latência de incorporação muito mais rápida.
English
Query augmentation makes queries more meaningful by appending further
information to the queries to find relevant documents. Current studies have
proposed Large Language Model (LLM)-based embedders, which learn representation
for embedding and generation for query augmentation in a multi-task manner by
leveraging the generative capabilities of LLM. During inference, these jointly
trained embedders have conducted query augmentation followed by embedding,
showing effective results. However, augmenting every query leads to substantial
embedding latency and query augmentation can be detrimental to performance for
some queries. Also, previous methods have not been explored in multimodal
environments. To tackle these problems, we propose M-Solomon, a universal
multimodal embedder that can adaptively determine when to augment queries. Our
approach first divides the queries of the training datasets into two groups at
the dataset level. One includes queries that require augmentation and the other
includes queries that do not. Then, we introduces a synthesis process that
generates appropriate augmentations for queries that require them by leveraging
a powerful Multimodal LLM (MLLM). Next, we present adaptive query augmentation.
Through this step, M-Solomon can conduct query augmentation only when necessary
by learning to generate synthetic augmentations with the prefix /augment for
queries that demand them and to generate the simple string /embed for others.
Experimental results showed that M-Solomon not only surpassed the baseline
without augmentation by a large margin but also outperformed the baseline that
always used augmentation, providing much faster embedding latency.