FreshStack: Construindo Benchmarks Realistas para Avaliação de Recuperação em Documentos Técnicos

Resumo

Apresentamos o FreshStack, um framework reutilizável para a construção automática de benchmarks de avaliação de recuperação de informação (IR) a partir de perguntas e respostas da comunidade. O FreshStack realiza os seguintes passos: (1) coleta automática de corpus a partir de código e documentação técnica, (2) geração de "nuggets" (informações essenciais) a partir de perguntas e respostas da comunidade, e (3) suporte em nível de "nugget", recuperando documentos usando uma fusão de técnicas de recuperação e arquiteturas híbridas. Utilizamos o FreshStack para construir cinco conjuntos de dados sobre tópicos recentes, em rápido crescimento e de nicho, garantindo que as tarefas sejam suficientemente desafiadoras. No FreshStack, modelos de recuperação existentes, quando aplicados diretamente, apresentam desempenho significativamente inferior às abordagens oráculo em todos os cinco tópicos, indicando amplo espaço para melhorar a qualidade da IR. Além disso, identificamos casos em que os rerankers não melhoram claramente a precisão da recuperação na primeira etapa (dois dos cinco tópicos). Esperamos que o FreshStack facilite trabalhos futuros na construção de benchmarks de avaliação de IR e RAG realistas, escaláveis e não contaminados. Os conjuntos de dados do FreshStack estão disponíveis em: https://fresh-stack.github.io.

English

We introduce FreshStack, a reusable framework for automatically building information retrieval (IR) evaluation benchmarks from community-asked questions and answers. FreshStack conducts the following steps: (1) automatic corpus collection from code and technical documentation, (2) nugget generation from community-asked questions and answers, and (3) nugget-level support, retrieving documents using a fusion of retrieval techniques and hybrid architectures. We use FreshStack to build five datasets on fast-growing, recent, and niche topics to ensure the tasks are sufficiently challenging. On FreshStack, existing retrieval models, when applied out-of-the-box, significantly underperform oracle approaches on all five topics, denoting plenty of headroom to improve IR quality. In addition, we identify cases where rerankers do not clearly improve first-stage retrieval accuracy (two out of five topics). We hope that FreshStack will facilitate future work toward constructing realistic, scalable, and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are available at: https://fresh-stack.github.io.

FreshStack: Construindo Benchmarks Realistas para Avaliação de Recuperação em Documentos Técnicos

FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

Resumo

Summary

Support

Support