HAKARI-Bench : Un benchmark léger pour comparer les architectures de recherche et les réglages d'efficacité dans des conditions unifiées

Résumé

Avec la propagation rapide de la génération augmentée par récupération et de la recherche sémantique, choisir la bonne configuration d'embedding et de récupération devient de plus en plus difficile. Les grands benchmarks de récupération sont complets, mais trop lourds à réexécuter en phase de développement, et il existe peu d'infrastructures pour comparer les paramètres de production — réduction de dimensionnalité, quantification, reclassement — entre de nombreux modèles dans des conditions identiques. Nous présentons HAKARI-Bench, un benchmark léger qui reconstruit des suites de récupération existantes en petits ensembles de données (Nano-ensembles) : 35 benchmarks et 551 tâches couvrant 43 langues dans un format unifié, permettant une comparaison indépendante du modèle et dans des conditions identiques de cinq familles de récupération (BM25, dense, sparse, interaction tardive, reclassifieurs) ainsi que de leurs variantes d'efficacité. Sur 55 modèles, son classement global reproduit le MTEB retrieval v2 officiel, le MMTEB v2 retrieval et le BEIR anglais (complet) avec un coefficient de Spearman > 0,97. HAKARI-Bench ne remplace pas une évaluation complète ; il permet une sélection rapide de modèles, la détection de régressions et la lecture de la frontière de Pareto qualité-efficacité. Le code, les données et le classement sont publiés sous licence MIT.

English

With the rapid spread of retrieval-augmented generation and semantic search, choosing the right embedding and retrieval configuration is increasingly hard. Large retrieval benchmarks are comprehensive but too heavy to rerun during development, and there is little infrastructure for comparing production settings--dimensionality reduction, quantization, reranking--across many models under identical conditions. We present HAKARI-Bench, a lightweight benchmark that reconstructs existing retrieval suites into small datasets (Nano-sets): 35 benchmarks and 551 tasks across 43 languages in a unified format, enabling same-condition, model-agnostic comparison of five retrieval families (BM25, dense, sparse, late interaction, rerankers) and their efficiency variants. Across 55 models, its overall ranking reproduces the official MTEB retrieval v2, MMTEB v2 retrieval, and English BEIR (full) at Spearman >0.97. HAKARI-Bench does not replace full evaluation; it enables rapid model selection, regression detection, and reading the quality-efficiency Pareto frontier. Code, data, and leaderboard are released under the MIT license.