ChatPaper.aiChatPaper

Hacer que los codificadores multimodales aprendan cuándo aumentar la consulta mediante aumento adaptativo de consulta

Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation

November 4, 2025
Autores: Wongyu Kim, Hochang Lee, Sanghak Lee, Yoonsung Kim, Jaehyun Park
cs.AI

Resumen

La ampliación de consultas hace que las consultas sean más significativas mediante la adición de información adicional para encontrar documentos relevantes. Estudios recientes han propuesto sistemas de incrustación basados en Modelos de Lenguaje Grande (LLM), que aprenden representaciones para incrustación y generación para la ampliación de consultas de manera multitarea aprovechando las capacidades generativas de los LLM. Durante la inferencia, estos sistemas de incrustación entrenados conjuntamente han realizado la ampliación de consultas seguida de la incrustación, mostrando resultados efectivos. Sin embargo, ampliar cada consulta genera una latencia de incrustación sustancial y la ampliación puede ser perjudicial para el rendimiento en algunas consultas. Además, los métodos anteriores no han sido explorados en entornos multimodales. Para abordar estos problemas, proponemos M-Solomon, un sistema de incrustación multimodal universal que puede determinar adaptativamente cuándo ampliar las consultas. Nuestro enfoque primero divide las consultas de los conjuntos de entrenamiento en dos grupos a nivel del conjunto de datos. Uno incluye consultas que requieren ampliación y el otro incluye consultas que no. Luego, introducimos un proceso de síntesis que genera ampliaciones apropiadas para las consultas que las requieren aprovechando un potente Modelo de Lenguaje Multimodal (MLLM). A continuación, presentamos la ampliación adaptativa de consultas. Mediante este paso, M-Solomon puede realizar la ampliación de consultas solo cuando es necesario aprendiendo a generar ampliaciones sintéticas con el prefijo /ampliar para consultas que lo demandan y a generar la cadena simple /incrustar para las demás. Los resultados experimentales mostraron que M-Solomon no solo superó por un amplio margen a la línea base sin ampliación, sino que también superó a la línea base que siempre usaba ampliación, proporcionando una latencia de incrustación mucho más rápida.
English
Query augmentation makes queries more meaningful by appending further information to the queries to find relevant documents. Current studies have proposed Large Language Model (LLM)-based embedders, which learn representation for embedding and generation for query augmentation in a multi-task manner by leveraging the generative capabilities of LLM. During inference, these jointly trained embedders have conducted query augmentation followed by embedding, showing effective results. However, augmenting every query leads to substantial embedding latency and query augmentation can be detrimental to performance for some queries. Also, previous methods have not been explored in multimodal environments. To tackle these problems, we propose M-Solomon, a universal multimodal embedder that can adaptively determine when to augment queries. Our approach first divides the queries of the training datasets into two groups at the dataset level. One includes queries that require augmentation and the other includes queries that do not. Then, we introduces a synthesis process that generates appropriate augmentations for queries that require them by leveraging a powerful Multimodal LLM (MLLM). Next, we present adaptive query augmentation. Through this step, M-Solomon can conduct query augmentation only when necessary by learning to generate synthetic augmentations with the prefix /augment for queries that demand them and to generate the simple string /embed for others. Experimental results showed that M-Solomon not only surpassed the baseline without augmentation by a large margin but also outperformed the baseline that always used augmentation, providing much faster embedding latency.
PDF32December 1, 2025