ChatPaper.aiChatPaper

FreshStack: 技術文書における検索評価のための現実的なベンチマーク構築

FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

April 17, 2025
著者: Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI

要旨

我々は、コミュニティで質問された質問と回答から情報検索(IR)評価ベンチマークを自動的に構築するための再利用可能なフレームワークであるFreshStackを紹介します。FreshStackは以下のステップを実行します:(1)コードと技術文書からの自動コーパス収集、(2)コミュニティで質問された質問と回答からのナゲット生成、(3)ナゲットレベルのサポート、検索技術とハイブリッドアーキテクチャの融合を用いた文書検索。我々はFreshStackを使用して、急速に成長している最新のニッチなトピックに関する5つのデータセットを構築し、タスクが十分に挑戦的であることを保証します。FreshStackにおいて、既存の検索モデルをそのまま適用すると、5つのトピックすべてでオラクルアプローチに大きく劣り、IR品質を向上させる余地が十分にあることが示されています。さらに、リランカーが第一段階の検索精度を明確に向上させないケース(5つのトピックのうち2つ)を特定しました。我々は、FreshStackが現実的でスケーラブル、かつ汚染されていないIRおよびRAG評価ベンチマークの構築に向けた将来の研究を促進することを期待しています。FreshStackのデータセットは以下で利用可能です:https://fresh-stack.github.io。
English
We introduce FreshStack, a reusable framework for automatically building information retrieval (IR) evaluation benchmarks from community-asked questions and answers. FreshStack conducts the following steps: (1) automatic corpus collection from code and technical documentation, (2) nugget generation from community-asked questions and answers, and (3) nugget-level support, retrieving documents using a fusion of retrieval techniques and hybrid architectures. We use FreshStack to build five datasets on fast-growing, recent, and niche topics to ensure the tasks are sufficiently challenging. On FreshStack, existing retrieval models, when applied out-of-the-box, significantly underperform oracle approaches on all five topics, denoting plenty of headroom to improve IR quality. In addition, we identify cases where rerankers do not clearly improve first-stage retrieval accuracy (two out of five topics). We hope that FreshStack will facilitate future work toward constructing realistic, scalable, and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are available at: https://fresh-stack.github.io.

Summary

AI-Generated Summary

PDF53April 18, 2025