FreshStack: Создание реалистичных бенчмарков для оценки поиска в технических документах
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents
April 17, 2025
Авторы: Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI
Аннотация
Мы представляем FreshStack — многоразовую платформу для автоматического создания эталонных наборов данных (бенчмарков) для оценки систем информационного поиска (IR) на основе вопросов и ответов, заданных сообществом. FreshStack выполняет следующие шаги: (1) автоматический сбор корпуса данных из кода и технической документации, (2) генерация информационных фрагментов (nuggets) из вопросов и ответов сообщества и (3) поддержка на уровне фрагментов, включающая поиск документов с использованием комбинации методов поиска и гибридных архитектур. Мы используем FreshStack для создания пяти наборов данных по быстро развивающимся, новым и узкоспециализированным темам, чтобы обеспечить достаточную сложность задач. На FreshStack существующие модели поиска, применяемые "из коробки", значительно уступают эталонным подходам по всем пяти темам, что указывает на значительный потенциал для улучшения качества IR. Кроме того, мы выявили случаи, когда реранкеры не приводят к явному улучшению точности поиска на первом этапе (в двух из пяти тем). Мы надеемся, что FreshStack будет способствовать дальнейшей работе по созданию реалистичных, масштабируемых и незагрязнённых бенчмарков для оценки IR и RAG. Наборы данных FreshStack доступны по адресу: https://fresh-stack.github.io.
English
We introduce FreshStack, a reusable framework for automatically building
information retrieval (IR) evaluation benchmarks from community-asked questions
and answers. FreshStack conducts the following steps: (1) automatic corpus
collection from code and technical documentation, (2) nugget generation from
community-asked questions and answers, and (3) nugget-level support, retrieving
documents using a fusion of retrieval techniques and hybrid architectures. We
use FreshStack to build five datasets on fast-growing, recent, and niche topics
to ensure the tasks are sufficiently challenging. On FreshStack, existing
retrieval models, when applied out-of-the-box, significantly underperform
oracle approaches on all five topics, denoting plenty of headroom to improve IR
quality. In addition, we identify cases where rerankers do not clearly improve
first-stage retrieval accuracy (two out of five topics). We hope that
FreshStack will facilitate future work toward constructing realistic, scalable,
and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are
available at: https://fresh-stack.github.io.Summary
AI-Generated Summary