Évaluation comparative des modèles de recherche d'information sur des tâches de recherche complexes
Benchmarking Information Retrieval Models on Complex Retrieval Tasks
September 8, 2025
papers.authors: Julian Killingback, Hamed Zamani
cs.AI
papers.abstract
Les grands modèles de langage (LLM) sont des outils incroyablement polyvalents pour les tâches basées sur le texte, ayant permis d'innombrables applications auparavant inimaginables. En revanche, les modèles de recherche d'information n'ont pas encore vu émerger de modèles généralistes aussi performants. Pour atteindre cet objectif, les modèles de recherche doivent être capables de traiter des tâches de recherche complexes, où les requêtes contiennent plusieurs parties, contraintes ou exigences exprimées en langage naturel. Ces tâches représentent une progression naturelle par rapport aux requêtes simples et unidimensionnelles utilisées dans la grande majorité des ensembles d'évaluation existants et couramment utilisés. Les requêtes complexes apparaissent naturellement à mesure que les utilisateurs attendent des systèmes de recherche qu'ils gèrent des demandes d'information plus spécifiques et souvent ambitieuses, comme en témoigne l'utilisation des systèmes d'information basés sur les LLM. Malgré le désir croissant de voir les modèles de recherche étendre leurs capacités aux tâches de recherche complexes, il existe peu de ressources pour évaluer les performances des modèles de recherche sur un ensemble complet de tâches complexes et variées. Les quelques ressources disponibles présentent un champ d'application limité et manquent souvent de réalisme, rendant difficile l'évaluation des véritables capacités des modèles de recherche sur des tâches de recherche complexes dans le monde réel. Pour combler cette lacune et stimuler l'innovation dans les modèles de recherche de nouvelle génération, nous avons construit un ensemble diversifié et réaliste de tâches de recherche complexes et évalué un ensemble représentatif de modèles de recherche à la pointe de la technologie. De plus, nous explorons l'impact de l'expansion et de la réécriture des requêtes basées sur les LLM sur la qualité de la recherche. Nos résultats montrent que même les meilleurs modèles peinent à produire des résultats de recherche de haute qualité, avec un nDCG@10 moyen maximal de seulement 0,346 et un R@100 de seulement 0,587 sur l'ensemble des tâches. Bien que l'augmentation par LLM puisse aider les modèles plus faibles, le modèle le plus performant voit ses résultats diminuer sur tous les indicateurs avec toutes les techniques de réécriture.
English
Large language models (LLMs) are incredible and versatile tools for
text-based tasks that have enabled countless, previously unimaginable,
applications. Retrieval models, in contrast, have not yet seen such capable
general-purpose models emerge. To achieve this goal, retrieval models must be
able to perform complex retrieval tasks, where queries contain multiple parts,
constraints, or requirements in natural language. These tasks represent a
natural progression from the simple, single-aspect queries that are used in the
vast majority of existing, commonly used evaluation sets. Complex queries
naturally arise as people expect search systems to handle more specific and
often ambitious information requests, as is demonstrated by how people use
LLM-based information systems. Despite the growing desire for retrieval models
to expand their capabilities in complex retrieval tasks, there exist limited
resources to assess the ability of retrieval models on a comprehensive set of
diverse complex tasks. The few resources that do exist feature a limited scope
and often lack realistic settings making it hard to know the true capabilities
of retrieval models on complex real-world retrieval tasks. To address this
shortcoming and spur innovation in next-generation retrieval models, we
construct a diverse and realistic set of complex retrieval tasks and benchmark
a representative set of state-of-the-art retrieval models. Additionally, we
explore the impact of LLM-based query expansion and rewriting on retrieval
quality. Our results show that even the best models struggle to produce
high-quality retrieval results with the highest average nDCG@10 of only 0.346
and R@100 of only 0.587 across all tasks. Although LLM augmentation can help
weaker models, the strongest model has decreased performance across all metrics
with all rewriting techniques.