Évaluation comparative des modèles de recherche d'information sur des tâches de recherche complexes

papers.abstract

Les grands modèles de langage (LLM) sont des outils incroyablement polyvalents pour les tâches basées sur le texte, ayant permis d'innombrables applications auparavant inimaginables. En revanche, les modèles de recherche d'information n'ont pas encore vu émerger de modèles généralistes aussi performants. Pour atteindre cet objectif, les modèles de recherche doivent être capables de traiter des tâches de recherche complexes, où les requêtes contiennent plusieurs parties, contraintes ou exigences exprimées en langage naturel. Ces tâches représentent une progression naturelle par rapport aux requêtes simples et unidimensionnelles utilisées dans la grande majorité des ensembles d'évaluation existants et couramment utilisés. Les requêtes complexes apparaissent naturellement à mesure que les utilisateurs attendent des systèmes de recherche qu'ils gèrent des demandes d'information plus spécifiques et souvent ambitieuses, comme en témoigne l'utilisation des systèmes d'information basés sur les LLM. Malgré le désir croissant de voir les modèles de recherche étendre leurs capacités aux tâches de recherche complexes, il existe peu de ressources pour évaluer les performances des modèles de recherche sur un ensemble complet de tâches complexes et variées. Les quelques ressources disponibles présentent un champ d'application limité et manquent souvent de réalisme, rendant difficile l'évaluation des véritables capacités des modèles de recherche sur des tâches de recherche complexes dans le monde réel. Pour combler cette lacune et stimuler l'innovation dans les modèles de recherche de nouvelle génération, nous avons construit un ensemble diversifié et réaliste de tâches de recherche complexes et évalué un ensemble représentatif de modèles de recherche à la pointe de la technologie. De plus, nous explorons l'impact de l'expansion et de la réécriture des requêtes basées sur les LLM sur la qualité de la recherche. Nos résultats montrent que même les meilleurs modèles peinent à produire des résultats de recherche de haute qualité, avec un nDCG@10 moyen maximal de seulement 0,346 et un R@100 de seulement 0,587 sur l'ensemble des tâches. Bien que l'augmentation par LLM puisse aider les modèles plus faibles, le modèle le plus performant voit ses résultats diminuer sur tous les indicateurs avec toutes les techniques de réécriture.

English

Large language models (LLMs) are incredible and versatile tools for text-based tasks that have enabled countless, previously unimaginable, applications. Retrieval models, in contrast, have not yet seen such capable general-purpose models emerge. To achieve this goal, retrieval models must be able to perform complex retrieval tasks, where queries contain multiple parts, constraints, or requirements in natural language. These tasks represent a natural progression from the simple, single-aspect queries that are used in the vast majority of existing, commonly used evaluation sets. Complex queries naturally arise as people expect search systems to handle more specific and often ambitious information requests, as is demonstrated by how people use LLM-based information systems. Despite the growing desire for retrieval models to expand their capabilities in complex retrieval tasks, there exist limited resources to assess the ability of retrieval models on a comprehensive set of diverse complex tasks. The few resources that do exist feature a limited scope and often lack realistic settings making it hard to know the true capabilities of retrieval models on complex real-world retrieval tasks. To address this shortcoming and spur innovation in next-generation retrieval models, we construct a diverse and realistic set of complex retrieval tasks and benchmark a representative set of state-of-the-art retrieval models. Additionally, we explore the impact of LLM-based query expansion and rewriting on retrieval quality. Our results show that even the best models struggle to produce high-quality retrieval results with the highest average nDCG@10 of only 0.346 and R@100 of only 0.587 across all tasks. Although LLM augmentation can help weaker models, the strongest model has decreased performance across all metrics with all rewriting techniques.

Évaluation comparative des modèles de recherche d'information sur des tâches de recherche complexes

Benchmarking Information Retrieval Models on Complex Retrieval Tasks

papers.abstract

Support