FreshStack: Construcción de Puntos de Referencia Realistas para Evaluar la Recuperación en Documentos Técnicos
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents
April 17, 2025
Autores: Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI
Resumen
Presentamos FreshStack, un marco reutilizable para construir automáticamente puntos de referencia de evaluación en recuperación de información (IR) a partir de preguntas y respuestas generadas por la comunidad. FreshStack lleva a cabo los siguientes pasos: (1) recopilación automática de corpus a partir de código y documentación técnica, (2) generación de fragmentos clave (nuggets) a partir de preguntas y respuestas de la comunidad, y (3) soporte a nivel de fragmentos, recuperando documentos mediante una fusión de técnicas de recuperación y arquitecturas híbridas. Utilizamos FreshStack para construir cinco conjuntos de datos sobre temas de rápido crecimiento, recientes y especializados, asegurando que las tareas sean lo suficientemente desafiantes. En FreshStack, los modelos de recuperación existentes, cuando se aplican sin modificaciones, tienen un rendimiento significativamente inferior a los enfoques oráculo en los cinco temas, lo que indica un amplio margen de mejora en la calidad de la IR. Además, identificamos casos en los que los reordenadores (rerankers) no mejoran claramente la precisión de la recuperación en la primera etapa (dos de los cinco temas). Esperamos que FreshStack facilite trabajos futuros hacia la construcción de puntos de referencia de evaluación de IR y RAG realistas, escalables y no contaminados. Los conjuntos de datos de FreshStack están disponibles en: https://fresh-stack.github.io.
English
We introduce FreshStack, a reusable framework for automatically building
information retrieval (IR) evaluation benchmarks from community-asked questions
and answers. FreshStack conducts the following steps: (1) automatic corpus
collection from code and technical documentation, (2) nugget generation from
community-asked questions and answers, and (3) nugget-level support, retrieving
documents using a fusion of retrieval techniques and hybrid architectures. We
use FreshStack to build five datasets on fast-growing, recent, and niche topics
to ensure the tasks are sufficiently challenging. On FreshStack, existing
retrieval models, when applied out-of-the-box, significantly underperform
oracle approaches on all five topics, denoting plenty of headroom to improve IR
quality. In addition, we identify cases where rerankers do not clearly improve
first-stage retrieval accuracy (two out of five topics). We hope that
FreshStack will facilitate future work toward constructing realistic, scalable,
and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are
available at: https://fresh-stack.github.io.Summary
AI-Generated Summary