Evaluación Comparativa de Modelos de Recuperación de Información en Tareas de Recuperación Complejas
Benchmarking Information Retrieval Models on Complex Retrieval Tasks
September 8, 2025
Autores: Julian Killingback, Hamed Zamani
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) son herramientas increíbles y versátiles para tareas basadas en texto que han permitido innumerables aplicaciones previamente inimaginables. En contraste, los modelos de recuperación aún no han visto surgir modelos de propósito general tan capaces. Para alcanzar este objetivo, los modelos de recuperación deben ser capaces de realizar tareas de recuperación complejas, donde las consultas contienen múltiples partes, restricciones o requisitos en lenguaje natural. Estas tareas representan una progresión natural desde las consultas simples y de un solo aspecto que se utilizan en la gran mayoría de los conjuntos de evaluación existentes y comúnmente usados. Las consultas complejas surgen naturalmente a medida que las personas esperan que los sistemas de búsqueda manejen solicitudes de información más específicas y, a menudo, ambiciosas, como lo demuestra el uso que las personas hacen de los sistemas de información basados en LLMs. A pesar del creciente deseo de que los modelos de recuperación amplíen sus capacidades en tareas de recuperación complejas, existen recursos limitados para evaluar la capacidad de los modelos de recuperación en un conjunto diverso de tareas complejas. Los pocos recursos que existen presentan un alcance limitado y, a menudo, carecen de configuraciones realistas, lo que dificulta conocer las verdaderas capacidades de los modelos de recuperación en tareas de recuperación complejas del mundo real. Para abordar esta deficiencia y fomentar la innovación en los modelos de recuperación de próxima generación, construimos un conjunto diverso y realista de tareas de recuperación complejas y evaluamos un conjunto representativo de modelos de recuperación de última generación. Además, exploramos el impacto de la expansión y reescritura de consultas basadas en LLMs en la calidad de la recuperación. Nuestros resultados muestran que incluso los mejores modelos luchan por producir resultados de recuperación de alta calidad, con un nDCG@10 promedio máximo de solo 0.346 y un R@100 de solo 0.587 en todas las tareas. Aunque la ampliación con LLMs puede ayudar a los modelos más débiles, el modelo más fuerte experimenta una disminución en el rendimiento en todas las métricas con todas las técnicas de reescritura.
English
Large language models (LLMs) are incredible and versatile tools for
text-based tasks that have enabled countless, previously unimaginable,
applications. Retrieval models, in contrast, have not yet seen such capable
general-purpose models emerge. To achieve this goal, retrieval models must be
able to perform complex retrieval tasks, where queries contain multiple parts,
constraints, or requirements in natural language. These tasks represent a
natural progression from the simple, single-aspect queries that are used in the
vast majority of existing, commonly used evaluation sets. Complex queries
naturally arise as people expect search systems to handle more specific and
often ambitious information requests, as is demonstrated by how people use
LLM-based information systems. Despite the growing desire for retrieval models
to expand their capabilities in complex retrieval tasks, there exist limited
resources to assess the ability of retrieval models on a comprehensive set of
diverse complex tasks. The few resources that do exist feature a limited scope
and often lack realistic settings making it hard to know the true capabilities
of retrieval models on complex real-world retrieval tasks. To address this
shortcoming and spur innovation in next-generation retrieval models, we
construct a diverse and realistic set of complex retrieval tasks and benchmark
a representative set of state-of-the-art retrieval models. Additionally, we
explore the impact of LLM-based query expansion and rewriting on retrieval
quality. Our results show that even the best models struggle to produce
high-quality retrieval results with the highest average nDCG@10 of only 0.346
and R@100 of only 0.587 across all tasks. Although LLM augmentation can help
weaker models, the strongest model has decreased performance across all metrics
with all rewriting techniques.