ChatPaper.aiChatPaper

FreshStack: Entwicklung realistischer Benchmarks zur Bewertung der Retrieval-Leistung bei technischen Dokumenten

FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

April 17, 2025
Autoren: Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI

Zusammenfassung

Wir stellen FreshStack vor, ein wiederverwendbares Framework zur automatischen Erstellung von Evaluierungs-Benchmarks für Information Retrieval (IR) aus von der Community gestellten Fragen und Antworten. FreshStack führt die folgenden Schritte durch: (1) automatische Korpus-Sammlung aus Code und technischer Dokumentation, (2) Nugget-Generierung aus von der Community gestellten Fragen und Antworten sowie (3) Nugget-basierte Unterstützung, bei der Dokumente mithilfe einer Kombination von Retrieval-Techniken und hybriden Architekturen abgerufen werden. Wir verwenden FreshStack, um fünf Datensätze zu schnell wachsenden, aktuellen und Nischenthemen zu erstellen, um sicherzustellen, dass die Aufgaben ausreichend herausfordernd sind. Bei der Anwendung von bestehenden Retrieval-Modellen auf FreshStack ohne Anpassungen schneiden diese auf allen fünf Themen deutlich schlechter ab als Oracle-Ansätze, was auf erheblichen Verbesserungsbedarf bei der IR-Qualität hinweist. Zusätzlich identifizieren wir Fälle, in denen Reranker die Genauigkeit des Retrievals in der ersten Stufe nicht eindeutig verbessern (zwei von fünf Themen). Wir hoffen, dass FreshStack zukünftige Arbeiten zur Konstruktion realistischer, skalierbarer und unverfälschter IR- und RAG-Evaluierungs-Benchmarks erleichtern wird. Die FreshStack-Datensätze sind verfügbar unter: https://fresh-stack.github.io.
English
We introduce FreshStack, a reusable framework for automatically building information retrieval (IR) evaluation benchmarks from community-asked questions and answers. FreshStack conducts the following steps: (1) automatic corpus collection from code and technical documentation, (2) nugget generation from community-asked questions and answers, and (3) nugget-level support, retrieving documents using a fusion of retrieval techniques and hybrid architectures. We use FreshStack to build five datasets on fast-growing, recent, and niche topics to ensure the tasks are sufficiently challenging. On FreshStack, existing retrieval models, when applied out-of-the-box, significantly underperform oracle approaches on all five topics, denoting plenty of headroom to improve IR quality. In addition, we identify cases where rerankers do not clearly improve first-stage retrieval accuracy (two out of five topics). We hope that FreshStack will facilitate future work toward constructing realistic, scalable, and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are available at: https://fresh-stack.github.io.

Summary

AI-Generated Summary

PDF53April 18, 2025