ChatPaper.aiChatPaper

Benchmarking von Informationsabrufmodellen bei komplexen Retrieval-Aufgaben

Benchmarking Information Retrieval Models on Complex Retrieval Tasks

September 8, 2025
papers.authors: Julian Killingback, Hamed Zamani
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) sind beeindruckende und vielseitige Werkzeuge für textbasierte Aufgaben, die unzählige, zuvor undenkbare Anwendungen ermöglicht haben. Im Gegensatz dazu haben Retrieval-Modelle noch keine derart leistungsfähigen Allzweckmodelle hervorgebracht. Um dieses Ziel zu erreichen, müssen Retrieval-Modelle in der Lage sein, komplexe Retrieval-Aufgaben zu bewältigen, bei denen Anfragen mehrere Teile, Einschränkungen oder Anforderungen in natürlicher Sprache enthalten. Diese Aufgaben stellen eine natürliche Weiterentwicklung von den einfachen, einseitigen Anfragen dar, die in der überwiegenden Mehrheit der bestehenden, häufig verwendeten Evaluationsdatensätze verwendet werden. Komplexe Anfragen entstehen zwangsläufig, da Menschen erwarten, dass Suchsysteme spezifischere und oft anspruchsvollere Informationsanfragen bewältigen können, wie sich an der Nutzung von LLM-basierten Informationssystemen zeigt. Trotz des wachsenden Wunsches, dass Retrieval-Modelle ihre Fähigkeiten in komplexen Retrieval-Aufgaben erweitern, gibt es nur begrenzte Ressourcen, um die Fähigkeiten von Retrieval-Modellen anhand eines umfassenden Satzes von diversen komplexen Aufgaben zu bewerten. Die wenigen vorhandenen Ressourcen weisen einen begrenzten Umfang auf und fehlen oft realistische Szenarien, was es schwierig macht, die tatsächlichen Fähigkeiten von Retrieval-Modellen bei komplexen Retrieval-Aufgaben in der realen Welt zu beurteilen. Um diesen Mangel zu beheben und Innovationen bei Retrieval-Modellen der nächsten Generation voranzutreiben, erstellen wir einen vielfältigen und realistischen Satz von komplexen Retrieval-Aufgaben und benchmarken eine repräsentative Auswahl von state-of-the-art Retrieval-Modellen. Zusätzlich untersuchen wir die Auswirkungen von LLM-basierter Anfrageerweiterung und -umformulierung auf die Retrieval-Qualität. Unsere Ergebnisse zeigen, dass selbst die besten Modelle Schwierigkeiten haben, hochwertige Retrieval-Ergebnisse zu erzielen, mit einem durchschnittlichen nDCG@10 von nur 0,346 und einem R@100 von nur 0,587 über alle Aufgaben hinweg. Obwohl LLM-Erweiterungen schwächeren Modellen helfen können, zeigt das stärkste Modall bei allen Umformulierungstechniken eine Verschlechterung der Leistung in allen Metriken.
English
Large language models (LLMs) are incredible and versatile tools for text-based tasks that have enabled countless, previously unimaginable, applications. Retrieval models, in contrast, have not yet seen such capable general-purpose models emerge. To achieve this goal, retrieval models must be able to perform complex retrieval tasks, where queries contain multiple parts, constraints, or requirements in natural language. These tasks represent a natural progression from the simple, single-aspect queries that are used in the vast majority of existing, commonly used evaluation sets. Complex queries naturally arise as people expect search systems to handle more specific and often ambitious information requests, as is demonstrated by how people use LLM-based information systems. Despite the growing desire for retrieval models to expand their capabilities in complex retrieval tasks, there exist limited resources to assess the ability of retrieval models on a comprehensive set of diverse complex tasks. The few resources that do exist feature a limited scope and often lack realistic settings making it hard to know the true capabilities of retrieval models on complex real-world retrieval tasks. To address this shortcoming and spur innovation in next-generation retrieval models, we construct a diverse and realistic set of complex retrieval tasks and benchmark a representative set of state-of-the-art retrieval models. Additionally, we explore the impact of LLM-based query expansion and rewriting on retrieval quality. Our results show that even the best models struggle to produce high-quality retrieval results with the highest average nDCG@10 of only 0.346 and R@100 of only 0.587 across all tasks. Although LLM augmentation can help weaker models, the strongest model has decreased performance across all metrics with all rewriting techniques.
PDF32September 10, 2025