FreshStack: Construindo Benchmarks Realistas para Avaliação de Recuperação em Documentos Técnicos
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents
April 17, 2025
Autores: Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI
Resumo
Apresentamos o FreshStack, um framework reutilizável para a construção automática de benchmarks de avaliação de recuperação de informação (IR) a partir de perguntas e respostas da comunidade. O FreshStack realiza os seguintes passos: (1) coleta automática de corpus a partir de código e documentação técnica, (2) geração de "nuggets" (informações essenciais) a partir de perguntas e respostas da comunidade, e (3) suporte em nível de "nugget", recuperando documentos usando uma fusão de técnicas de recuperação e arquiteturas híbridas. Utilizamos o FreshStack para construir cinco conjuntos de dados sobre tópicos recentes, em rápido crescimento e de nicho, garantindo que as tarefas sejam suficientemente desafiadoras. No FreshStack, modelos de recuperação existentes, quando aplicados diretamente, apresentam desempenho significativamente inferior às abordagens oráculo em todos os cinco tópicos, indicando amplo espaço para melhorar a qualidade da IR. Além disso, identificamos casos em que os rerankers não melhoram claramente a precisão da recuperação na primeira etapa (dois dos cinco tópicos). Esperamos que o FreshStack facilite trabalhos futuros na construção de benchmarks de avaliação de IR e RAG realistas, escaláveis e não contaminados. Os conjuntos de dados do FreshStack estão disponíveis em: https://fresh-stack.github.io.
English
We introduce FreshStack, a reusable framework for automatically building
information retrieval (IR) evaluation benchmarks from community-asked questions
and answers. FreshStack conducts the following steps: (1) automatic corpus
collection from code and technical documentation, (2) nugget generation from
community-asked questions and answers, and (3) nugget-level support, retrieving
documents using a fusion of retrieval techniques and hybrid architectures. We
use FreshStack to build five datasets on fast-growing, recent, and niche topics
to ensure the tasks are sufficiently challenging. On FreshStack, existing
retrieval models, when applied out-of-the-box, significantly underperform
oracle approaches on all five topics, denoting plenty of headroom to improve IR
quality. In addition, we identify cases where rerankers do not clearly improve
first-stage retrieval accuracy (two out of five topics). We hope that
FreshStack will facilitate future work toward constructing realistic, scalable,
and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are
available at: https://fresh-stack.github.io.Summary
AI-Generated Summary