FreshStack: Het ontwikkelen van realistische benchmarks voor het evalueren van retrieval op technische documenten

Samenvatting

We introduceren FreshStack, een herbruikbaar framework voor het automatisch opbouwen van informatiezoekevaluatiebenchmarks (IR) op basis van door de gemeenschap gestelde vragen en antwoorden. FreshStack voert de volgende stappen uit: (1) automatische corpusverzameling uit code en technische documentatie, (2) nuggetgeneratie uit door de gemeenschap gestelde vragen en antwoorden, en (3) nugget-level ondersteuning, waarbij documenten worden opgehaald met behulp van een combinatie van zoektechnieken en hybride architecturen. We gebruiken FreshStack om vijf datasets te bouwen over snelgroeiende, recente en nicheonderwerpen om ervoor te zorgen dat de taken voldoende uitdagend zijn. Op FreshStack presteren bestaande zoekmodellen, wanneer ze out-of-the-box worden toegepast, aanzienlijk slechter dan orakelbenaderingen op alle vijf onderwerpen, wat wijst op veel ruimte voor verbetering van de IR-kwaliteit. Daarnaast identificeren we gevallen waarbij herrangschikkers de nauwkeurigheid van de eerste zoekfase niet duidelijk verbeteren (twee van de vijf onderwerpen). We hopen dat FreshStack toekomstig werk zal vergemakkelijken bij het construeren van realistische, schaalbare en niet-vervuilde IR- en RAG-evaluatiebenchmarks. FreshStack-datasets zijn beschikbaar op: https://fresh-stack.github.io.

English

We introduce FreshStack, a reusable framework for automatically building information retrieval (IR) evaluation benchmarks from community-asked questions and answers. FreshStack conducts the following steps: (1) automatic corpus collection from code and technical documentation, (2) nugget generation from community-asked questions and answers, and (3) nugget-level support, retrieving documents using a fusion of retrieval techniques and hybrid architectures. We use FreshStack to build five datasets on fast-growing, recent, and niche topics to ensure the tasks are sufficiently challenging. On FreshStack, existing retrieval models, when applied out-of-the-box, significantly underperform oracle approaches on all five topics, denoting plenty of headroom to improve IR quality. In addition, we identify cases where rerankers do not clearly improve first-stage retrieval accuracy (two out of five topics). We hope that FreshStack will facilitate future work toward constructing realistic, scalable, and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are available at: https://fresh-stack.github.io.

FreshStack: Het ontwikkelen van realistische benchmarks voor het evalueren van retrieval op technische documenten

FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

Samenvatting

Support