FreshStack: Создание реалистичных бенчмарков для оценки поиска в технических документах

Аннотация

Мы представляем FreshStack — многоразовую платформу для автоматического создания эталонных наборов данных (бенчмарков) для оценки систем информационного поиска (IR) на основе вопросов и ответов, заданных сообществом. FreshStack выполняет следующие шаги: (1) автоматический сбор корпуса данных из кода и технической документации, (2) генерация информационных фрагментов (nuggets) из вопросов и ответов сообщества и (3) поддержка на уровне фрагментов, включающая поиск документов с использованием комбинации методов поиска и гибридных архитектур. Мы используем FreshStack для создания пяти наборов данных по быстро развивающимся, новым и узкоспециализированным темам, чтобы обеспечить достаточную сложность задач. На FreshStack существующие модели поиска, применяемые "из коробки", значительно уступают эталонным подходам по всем пяти темам, что указывает на значительный потенциал для улучшения качества IR. Кроме того, мы выявили случаи, когда реранкеры не приводят к явному улучшению точности поиска на первом этапе (в двух из пяти тем). Мы надеемся, что FreshStack будет способствовать дальнейшей работе по созданию реалистичных, масштабируемых и незагрязнённых бенчмарков для оценки IR и RAG. Наборы данных FreshStack доступны по адресу: https://fresh-stack.github.io.

English

We introduce FreshStack, a reusable framework for automatically building information retrieval (IR) evaluation benchmarks from community-asked questions and answers. FreshStack conducts the following steps: (1) automatic corpus collection from code and technical documentation, (2) nugget generation from community-asked questions and answers, and (3) nugget-level support, retrieving documents using a fusion of retrieval techniques and hybrid architectures. We use FreshStack to build five datasets on fast-growing, recent, and niche topics to ensure the tasks are sufficiently challenging. On FreshStack, existing retrieval models, when applied out-of-the-box, significantly underperform oracle approaches on all five topics, denoting plenty of headroom to improve IR quality. In addition, we identify cases where rerankers do not clearly improve first-stage retrieval accuracy (two out of five topics). We hope that FreshStack will facilitate future work toward constructing realistic, scalable, and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are available at: https://fresh-stack.github.io.

FreshStack: Создание реалистичных бенчмарков для оценки поиска в технических документах

FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

Аннотация

Support