FreshStack: 기술 문서 검색 평가를 위한 현실적인 벤치마크 구축
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents
April 17, 2025
저자: Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI
초록
커뮤니티에서 제기된 질문과 답변을 기반으로 정보 검색(IR) 평가 벤치마크를 자동으로 구축하기 위한 재사용 가능한 프레임워크인 FreshStack을 소개합니다. FreshStack은 다음과 같은 단계를 수행합니다: (1) 코드와 기술 문서로부터 자동으로 코퍼스를 수집하고, (2) 커뮤니티 질문과 답변에서 핵심 정보(nugget)를 생성하며, (3) 다양한 검색 기법과 하이브리드 아키텍처를 융합하여 문서를 검색하는 nugget 수준의 지원을 제공합니다. 우리는 FreshStack을 사용하여 빠르게 성장하고 최신이며 틈새 주제에 대한 다섯 개의 데이터셋을 구축하여 작업이 충분히 도전적이도록 했습니다. FreshStack에서 기존 검색 모델들은 그대로 적용했을 때, 다섯 가지 주제 모두에서 오라클 접근법에 비해 크게 뒤처지는 성능을 보여 IR 품질을 개선할 여지가 많음을 나타냅니다. 또한, 리랭커가 첫 단계 검색 정확도를 명확히 개선하지 못하는 경우(다섯 가지 주제 중 두 가지)를 확인했습니다. 우리는 FreshStack이 현실적이고 확장 가능하며 오염되지 않은 IR 및 RAG 평가 벤치마크 구축을 위한 향후 연구를 촉진하기를 바랍니다. FreshStack 데이터셋은 https://fresh-stack.github.io에서 확인할 수 있습니다.
English
We introduce FreshStack, a reusable framework for automatically building
information retrieval (IR) evaluation benchmarks from community-asked questions
and answers. FreshStack conducts the following steps: (1) automatic corpus
collection from code and technical documentation, (2) nugget generation from
community-asked questions and answers, and (3) nugget-level support, retrieving
documents using a fusion of retrieval techniques and hybrid architectures. We
use FreshStack to build five datasets on fast-growing, recent, and niche topics
to ensure the tasks are sufficiently challenging. On FreshStack, existing
retrieval models, when applied out-of-the-box, significantly underperform
oracle approaches on all five topics, denoting plenty of headroom to improve IR
quality. In addition, we identify cases where rerankers do not clearly improve
first-stage retrieval accuracy (two out of five topics). We hope that
FreshStack will facilitate future work toward constructing realistic, scalable,
and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are
available at: https://fresh-stack.github.io.Summary
AI-Generated Summary