HAKARI-Bench: Een lichtgewicht benchmark voor het vergelijken van retrievalarchitecturen en efficiëntie-instellingen onder uniforme omstandigheden

Samenvatting

Met de snelle verspreiding van retrieval-augmented generation en semantisch zoeken wordt het steeds moeilijker om de juiste inbeddings- en retrievalsconfiguratie te kiezen. Grote retrieval-benchmarks zijn uitgebreid, maar te zwaar om tijdens de ontwikkeling opnieuw uit te voeren, en er is weinig infrastructuur om productie-instellingen – dimensionaliteitsreductie, kwantisering, herordening – onder identieke omstandigheden over vele modellen te vergelijken. Wij presenteren HAKARI-Bench, een lichtgewicht benchmark die bestaande retrieval-suites herstructureert tot kleine datasets (Nano-sets): 35 benchmarks en 551 taken in 43 talen in een uniform formaat, wat model-agnostische vergelijking onder gelijke voorwaarden mogelijk maakt van vijf retrievalfamilies (BM25, dicht, dun, late interactie, herordenen) en hun efficiëntievarianten. Over 55 modellen heen reproduceert de algehele rangschikking de officiële MTEB retrieval v2, MMTEB v2 retrieval en Engelse BEIR (volledig) met een Spearman >0,97. HAKARI-Bench vervangt geen volledige evaluatie; het maakt snelle modelselectie, regressiedetectie en het lezen van de kwaliteit-efficiëntie Pareto-grens mogelijk. Code, gegevens en leaderboard worden vrijgegeven onder de MIT-licentie.

English

With the rapid spread of retrieval-augmented generation and semantic search, choosing the right embedding and retrieval configuration is increasingly hard. Large retrieval benchmarks are comprehensive but too heavy to rerun during development, and there is little infrastructure for comparing production settings--dimensionality reduction, quantization, reranking--across many models under identical conditions. We present HAKARI-Bench, a lightweight benchmark that reconstructs existing retrieval suites into small datasets (Nano-sets): 35 benchmarks and 551 tasks across 43 languages in a unified format, enabling same-condition, model-agnostic comparison of five retrieval families (BM25, dense, sparse, late interaction, rerankers) and their efficiency variants. Across 55 models, its overall ranking reproduces the official MTEB retrieval v2, MMTEB v2 retrieval, and English BEIR (full) at Spearman >0.97. HAKARI-Bench does not replace full evaluation; it enables rapid model selection, regression detection, and reading the quality-efficiency Pareto frontier. Code, data, and leaderboard are released under the MIT license.