FreshStack: Construcción de Puntos de Referencia Realistas para Evaluar la Recuperación en Documentos Técnicos

Resumen

Presentamos FreshStack, un marco reutilizable para construir automáticamente puntos de referencia de evaluación en recuperación de información (IR) a partir de preguntas y respuestas generadas por la comunidad. FreshStack lleva a cabo los siguientes pasos: (1) recopilación automática de corpus a partir de código y documentación técnica, (2) generación de fragmentos clave (nuggets) a partir de preguntas y respuestas de la comunidad, y (3) soporte a nivel de fragmentos, recuperando documentos mediante una fusión de técnicas de recuperación y arquitecturas híbridas. Utilizamos FreshStack para construir cinco conjuntos de datos sobre temas de rápido crecimiento, recientes y especializados, asegurando que las tareas sean lo suficientemente desafiantes. En FreshStack, los modelos de recuperación existentes, cuando se aplican sin modificaciones, tienen un rendimiento significativamente inferior a los enfoques oráculo en los cinco temas, lo que indica un amplio margen de mejora en la calidad de la IR. Además, identificamos casos en los que los reordenadores (rerankers) no mejoran claramente la precisión de la recuperación en la primera etapa (dos de los cinco temas). Esperamos que FreshStack facilite trabajos futuros hacia la construcción de puntos de referencia de evaluación de IR y RAG realistas, escalables y no contaminados. Los conjuntos de datos de FreshStack están disponibles en: https://fresh-stack.github.io.

English

We introduce FreshStack, a reusable framework for automatically building information retrieval (IR) evaluation benchmarks from community-asked questions and answers. FreshStack conducts the following steps: (1) automatic corpus collection from code and technical documentation, (2) nugget generation from community-asked questions and answers, and (3) nugget-level support, retrieving documents using a fusion of retrieval techniques and hybrid architectures. We use FreshStack to build five datasets on fast-growing, recent, and niche topics to ensure the tasks are sufficiently challenging. On FreshStack, existing retrieval models, when applied out-of-the-box, significantly underperform oracle approaches on all five topics, denoting plenty of headroom to improve IR quality. In addition, we identify cases where rerankers do not clearly improve first-stage retrieval accuracy (two out of five topics). We hope that FreshStack will facilitate future work toward constructing realistic, scalable, and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are available at: https://fresh-stack.github.io.

FreshStack: Construcción de Puntos de Referencia Realistas para Evaluar la Recuperación en Documentos Técnicos

FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

Resumen

Support