HAKARI-Bench: Ein leichtgewichtiger Benchmark zum Vergleich von Retrieval-Architekturen und Effizienzeinstellungen unter einheitlichen Bedingungen

Zusammenfassung

Mit der raschen Verbreitung von Retrieval-Augmented Generation und semantischer Suche wird die Auswahl der richtigen Embedding- und Retrieval-Konfiguration zunehmend schwierig. Große Retrieval-Benchmarks sind zwar umfassend, aber zu aufwändig, um sie während der Entwicklung erneut auszuführen, und es gibt wenig Infrastruktur für den Vergleich von Produktionseinstellungen – Dimensionsreduktion, Quantisierung, Re-Ranking – über viele Modelle hinweg unter identischen Bedingungen. Wir stellen HAKARI-Bench vor, einen leichtgewichtigen Benchmark, der bestehende Retrieval-Sammlungen in kleine Datensätze (Nano-Sets) rekonstruiert: 35 Benchmarks und 551 Aufgaben in 43 Sprachen in einem einheitlichen Format, das einen modellagnostischen Vergleich unter gleichen Bedingungen von fünf Retrieval-Familien (BM25, dicht, sparse, Late Interaction, Re-Ranker) und ihren Effizienzvarianten ermöglicht. Über 55 Modelle hinweg reproduziert seine Gesamtrangfolge den offiziellen MTEB Retrieval v2, MMTEB v2 Retrieval und English BEIR (full) mit einem Spearman >0,97. HAKARI-Bench ersetzt keine vollständige Evaluierung; es ermöglicht schnelle Modellauswahl, Regressionserkennung und das Ablesen der Qualitäts-Effizienz-Pareto-Grenze. Code, Daten und Leaderboard werden unter der MIT-Lizenz veröffentlicht.

English

With the rapid spread of retrieval-augmented generation and semantic search, choosing the right embedding and retrieval configuration is increasingly hard. Large retrieval benchmarks are comprehensive but too heavy to rerun during development, and there is little infrastructure for comparing production settings--dimensionality reduction, quantization, reranking--across many models under identical conditions. We present HAKARI-Bench, a lightweight benchmark that reconstructs existing retrieval suites into small datasets (Nano-sets): 35 benchmarks and 551 tasks across 43 languages in a unified format, enabling same-condition, model-agnostic comparison of five retrieval families (BM25, dense, sparse, late interaction, rerankers) and their efficiency variants. Across 55 models, its overall ranking reproduces the official MTEB retrieval v2, MMTEB v2 retrieval, and English BEIR (full) at Spearman >0.97. HAKARI-Bench does not replace full evaluation; it enables rapid model selection, regression detection, and reading the quality-efficiency Pareto frontier. Code, data, and leaderboard are released under the MIT license.