FreshStack: Het ontwikkelen van realistische benchmarks voor het evalueren van retrieval op technische documenten
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents
April 17, 2025
Auteurs: Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI
Samenvatting
We introduceren FreshStack, een herbruikbaar framework voor het automatisch opbouwen van informatiezoekevaluatiebenchmarks (IR) op basis van door de gemeenschap gestelde vragen en antwoorden. FreshStack voert de volgende stappen uit: (1) automatische corpusverzameling uit code en technische documentatie, (2) nuggetgeneratie uit door de gemeenschap gestelde vragen en antwoorden, en (3) nugget-level ondersteuning, waarbij documenten worden opgehaald met behulp van een combinatie van zoektechnieken en hybride architecturen. We gebruiken FreshStack om vijf datasets te bouwen over snelgroeiende, recente en nicheonderwerpen om ervoor te zorgen dat de taken voldoende uitdagend zijn. Op FreshStack presteren bestaande zoekmodellen, wanneer ze out-of-the-box worden toegepast, aanzienlijk slechter dan orakelbenaderingen op alle vijf onderwerpen, wat wijst op veel ruimte voor verbetering van de IR-kwaliteit. Daarnaast identificeren we gevallen waarbij herrangschikkers de nauwkeurigheid van de eerste zoekfase niet duidelijk verbeteren (twee van de vijf onderwerpen). We hopen dat FreshStack toekomstig werk zal vergemakkelijken bij het construeren van realistische, schaalbare en niet-vervuilde IR- en RAG-evaluatiebenchmarks. FreshStack-datasets zijn beschikbaar op: https://fresh-stack.github.io.
English
We introduce FreshStack, a reusable framework for automatically building
information retrieval (IR) evaluation benchmarks from community-asked questions
and answers. FreshStack conducts the following steps: (1) automatic corpus
collection from code and technical documentation, (2) nugget generation from
community-asked questions and answers, and (3) nugget-level support, retrieving
documents using a fusion of retrieval techniques and hybrid architectures. We
use FreshStack to build five datasets on fast-growing, recent, and niche topics
to ensure the tasks are sufficiently challenging. On FreshStack, existing
retrieval models, when applied out-of-the-box, significantly underperform
oracle approaches on all five topics, denoting plenty of headroom to improve IR
quality. In addition, we identify cases where rerankers do not clearly improve
first-stage retrieval accuracy (two out of five topics). We hope that
FreshStack will facilitate future work toward constructing realistic, scalable,
and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are
available at: https://fresh-stack.github.io.Summary
AI-Generated Summary