HAKARI-Bench: Легковесный бенчмарк для сравнения архитектур поиска и настроек эффективности в унифицированных условиях

Аннотация

С быстрым распространением генерации с дополнением поиска и семантического поиска выбор правильной конфигурации встраивания и поиска становится всё сложнее. Крупные эталоны поиска всеобъемлющи, но слишком тяжелы для повторного запуска в процессе разработки, и практически отсутствует инфраструктура для сравнения производственных настроек — снижения размерности, квантизации, переранжирования — для множества моделей в идентичных условиях. Мы представляем HAKARI-Bench, легковесный эталон, который реконструирует существующие наборы поиска в небольшие наборы данных (Nano-sets): 35 эталонов и 551 задача на 43 языках в едином формате, обеспечивая сравнение пяти семейств поиска (BM25, плотные, разреженные, позднего взаимодействия, ранжировщики) и их вариантов эффективности в одинаковых условиях, независимо от модели. Для 55 моделей его общий рейтинг воспроизводит официальный MTEB retrieval v2, MMTEB v2 retrieval и английский BEIR (полный) при Spearman >0.97. HAKARI-Bench не заменяет полную оценку; он обеспечивает быстрый выбор модели, обнаружение регрессии и анализ границы Парето качества-эффективности. Код, данные и таблица лидеров выпущены под лицензией MIT.

English

With the rapid spread of retrieval-augmented generation and semantic search, choosing the right embedding and retrieval configuration is increasingly hard. Large retrieval benchmarks are comprehensive but too heavy to rerun during development, and there is little infrastructure for comparing production settings--dimensionality reduction, quantization, reranking--across many models under identical conditions. We present HAKARI-Bench, a lightweight benchmark that reconstructs existing retrieval suites into small datasets (Nano-sets): 35 benchmarks and 551 tasks across 43 languages in a unified format, enabling same-condition, model-agnostic comparison of five retrieval families (BM25, dense, sparse, late interaction, rerankers) and their efficiency variants. Across 55 models, its overall ranking reproduces the official MTEB retrieval v2, MMTEB v2 retrieval, and English BEIR (full) at Spearman >0.97. HAKARI-Bench does not replace full evaluation; it enables rapid model selection, regression detection, and reading the quality-efficiency Pareto frontier. Code, data, and leaderboard are released under the MIT license.