HAKARI-Bench: Un Benchmark Ligero para Comparar Arquitecturas de Recuperación y Configuraciones de Eficiencia bajo Condiciones Unificadas

Resumen

Con la rápida difusión de la generación aumentada por recuperación y la búsqueda semántica, seleccionar la configuración adecuada de embedding y recuperación resulta cada vez más difícil. Los grandes benchmarks de recuperación son exhaustivos, pero demasiado pesados para reejecutarlos durante el desarrollo, y existe poca infraestructura para comparar configuraciones de producción —reducción de dimensionalidad, cuantización, reordenamiento— entre múltiples modelos bajo condiciones idénticas. Presentamos HAKARI-Bench, un benchmark ligero que reconstruye suites de recuperación existentes en conjuntos de datos pequeños (Nano-conjuntos): 35 benchmarks y 551 tareas en 43 lenguajes en un formato unificado, que permite la comparación en condiciones equivalentes y de manera agnóstica al modelo de cinco familias de recuperación (BM25, denso, disperso, interacción tardía y reordenadores) y sus variantes de eficiencia. En 55 modelos, su ranking general reproduce el MTEB retrieval v2 oficial, MMTEB v2 retrieval y English BEIR (completo) con Spearman > 0.97. HAKARI-Bench no reemplaza la evaluación completa; permite una selección rápida de modelos, detección de regresiones y lectura de la frontera de Pareto calidad-eficiencia. El código, los datos y el leaderboard se publican bajo la licencia MIT.

English

With the rapid spread of retrieval-augmented generation and semantic search, choosing the right embedding and retrieval configuration is increasingly hard. Large retrieval benchmarks are comprehensive but too heavy to rerun during development, and there is little infrastructure for comparing production settings--dimensionality reduction, quantization, reranking--across many models under identical conditions. We present HAKARI-Bench, a lightweight benchmark that reconstructs existing retrieval suites into small datasets (Nano-sets): 35 benchmarks and 551 tasks across 43 languages in a unified format, enabling same-condition, model-agnostic comparison of five retrieval families (BM25, dense, sparse, late interaction, rerankers) and their efficiency variants. Across 55 models, its overall ranking reproduces the official MTEB retrieval v2, MMTEB v2 retrieval, and English BEIR (full) at Spearman >0.97. HAKARI-Bench does not replace full evaluation; it enables rapid model selection, regression detection, and reading the quality-efficiency Pareto frontier. Code, data, and leaderboard are released under the MIT license.