ChatPaper.aiChatPaper

Deixe os Codificadores Multimodais Aprenderem Quando Aumentar a Consulta via Aumento Adaptativo de Consulta

Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation

November 4, 2025
Autores: Wongyu Kim, Hochang Lee, Sanghak Lee, Yoonsung Kim, Jaehyun Park
cs.AI

Resumo

A ampliação de consultas torna as consultas mais significativas através do acréscimo de informações adicionais para encontrar documentos relevantes. Estudos recentes propuseram sistemas de incorporação baseados em Modelos de Linguagem de Grande Porte (LLM), que aprendem representações para incorporação e geração para ampliação de consultas de forma multitarefa, aproveitando as capacidades generativas dos LLMs. Durante a inferência, esses sistemas de incorporação treinados conjuntamente realizaram ampliação de consultas seguida de incorporação, demonstrando resultados eficazes. No entanto, ampliar todas as consultas resulta em latência de incorporação substancial, e a ampliação de consultas pode ser prejudicial ao desempenho para algumas consultas. Além disso, métodos anteriores não foram explorados em ambientes multimodais. Para enfrentar esses problemas, propomos o M-Solomon, um sistema de incorporação multimodal universal que pode determinar adaptativamente quando ampliar consultas. Nossa abordagem primeiro divide as consultas dos conjuntos de dados de treinamento em dois grupos a nível de conjunto de dados. Um inclui consultas que requerem ampliação e o outro inclui consultas que não requerem. Em seguida, introduzimos um processo de síntese que gera ampliações apropriadas para consultas que as necessitam, aproveitando um poderoso Modelo de Linguagem Multimodal (MLLM). Depois, apresentamos a ampliação adaptativa de consultas. Através desta etapa, o M-Solomon pode realizar ampliação de consultas apenas quando necessário, aprendendo a gerar ampliações sintéticas com o prefixo /augment para consultas que as demandam e a gerar a string simples /embed para as demais. Resultados experimentais mostraram que o M-Solomon não apenas superou a linha de base sem ampliação por uma grande margem, mas também superou a linha de base que sempre usava ampliação, fornecendo uma latência de incorporação muito mais rápida.
English
Query augmentation makes queries more meaningful by appending further information to the queries to find relevant documents. Current studies have proposed Large Language Model (LLM)-based embedders, which learn representation for embedding and generation for query augmentation in a multi-task manner by leveraging the generative capabilities of LLM. During inference, these jointly trained embedders have conducted query augmentation followed by embedding, showing effective results. However, augmenting every query leads to substantial embedding latency and query augmentation can be detrimental to performance for some queries. Also, previous methods have not been explored in multimodal environments. To tackle these problems, we propose M-Solomon, a universal multimodal embedder that can adaptively determine when to augment queries. Our approach first divides the queries of the training datasets into two groups at the dataset level. One includes queries that require augmentation and the other includes queries that do not. Then, we introduces a synthesis process that generates appropriate augmentations for queries that require them by leveraging a powerful Multimodal LLM (MLLM). Next, we present adaptive query augmentation. Through this step, M-Solomon can conduct query augmentation only when necessary by learning to generate synthetic augmentations with the prefix /augment for queries that demand them and to generate the simple string /embed for others. Experimental results showed that M-Solomon not only surpassed the baseline without augmentation by a large margin but also outperformed the baseline that always used augmentation, providing much faster embedding latency.
PDF32December 1, 2025