FreshStack : Construction de benchmarks réalistes pour l'évaluation de la recherche dans les documents techniques
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents
April 17, 2025
Auteurs: Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI
Résumé
Nous présentons FreshStack, un cadre réutilisable pour la construction automatique de benchmarks d'évaluation en recherche d'information (IR) à partir de questions et réponses posées par la communauté. FreshStack effectue les étapes suivantes : (1) collecte automatique de corpus à partir de code et de documentation technique, (2) génération de fragments d'information (nuggets) à partir de questions et réponses communautaires, et (3) support au niveau des fragments, en récupérant des documents à l'aide d'une fusion de techniques de recherche et d'architectures hybrides. Nous utilisons FreshStack pour construire cinq jeux de données sur des sujets récents, en pleine expansion et de niche, afin de garantir que les tâches soient suffisamment complexes. Sur FreshStack, les modèles de recherche existants, lorsqu'ils sont appliqués tels quels, sous-performent significativement les approches oracles sur les cinq sujets, indiquant un potentiel d'amélioration important de la qualité de l'IR. De plus, nous identifions des cas où les réordonnanceurs (rerankers) n'améliorent pas clairement la précision de la recherche en première étape (deux sujets sur cinq). Nous espérons que FreshStack facilitera les travaux futurs visant à construire des benchmarks d'évaluation réalistes, évolutifs et non contaminés pour l'IR et le RAG. Les jeux de données FreshStack sont disponibles à l'adresse : https://fresh-stack.github.io.
English
We introduce FreshStack, a reusable framework for automatically building
information retrieval (IR) evaluation benchmarks from community-asked questions
and answers. FreshStack conducts the following steps: (1) automatic corpus
collection from code and technical documentation, (2) nugget generation from
community-asked questions and answers, and (3) nugget-level support, retrieving
documents using a fusion of retrieval techniques and hybrid architectures. We
use FreshStack to build five datasets on fast-growing, recent, and niche topics
to ensure the tasks are sufficiently challenging. On FreshStack, existing
retrieval models, when applied out-of-the-box, significantly underperform
oracle approaches on all five topics, denoting plenty of headroom to improve IR
quality. In addition, we identify cases where rerankers do not clearly improve
first-stage retrieval accuracy (two out of five topics). We hope that
FreshStack will facilitate future work toward constructing realistic, scalable,
and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are
available at: https://fresh-stack.github.io.Summary
AI-Generated Summary