HUME: テキスト埋め込みタスクにおける人間とモデルの性能差の測定
HUME: Measuring the Human-Model Performance Gap in Text Embedding Task
October 11, 2025
著者: Adnan El Assadi, Isaac Chung, Roman Solomatin, Niklas Muennighoff, Kenneth Enevoldsen
cs.AI
要旨
人間とモデルの性能を比較することは、埋め込みモデルの強みと限界を理解し、意味やニュアンスを捉える点でどこで成功し、どこで失敗するかを明らかにする上で貴重な視点を提供します。しかし、埋め込みタスクにおける人間の性能を測定することが難しいため、このような比較はほとんど行われていません。このギャップを埋めるため、我々はHUME: Human Evaluation Framework for Text Embeddingsを導入します。MTEBのようなフレームワークはモデル評価を広範に提供しますが、人間の性能の信頼できる推定値が欠けており、モデルスコアの解釈可能性を制限しています。我々は、再ランキング、分類、クラスタリング、意味的テキスト類似性を含む16のMTEBデータセットにわたって、言語的に多様な高リソース言語と低リソース言語における人間の性能を測定します。人間の平均性能は77.6%であり、最高の埋め込みモデルの80.1%に比べて低いものの、変動は大きいです。モデルは一部のデータセットではほぼ天井性能に達する一方、他のデータセットでは苦戦しており、データセットの問題や低リソース言語における欠点が明らかになります。我々は、人間の性能ベースライン、タスクの難易度パターンに関する洞察、そしてモデルのより意味のある解釈を可能にし、モデルとベンチマークの開発に情報を提供する拡張可能な評価フレームワークを提供します。我々のコード、データセット、リーダーボードはhttps://github.com/embeddings-benchmark/mtebで公開されています。
English
Comparing human and model performance offers a valuable perspective for
understanding the strengths and limitations of embedding models, highlighting
where they succeed and where they fail to capture meaning and nuance. However,
such comparisons are rarely made, as human performance on embedding tasks is
difficult to measure. To fill this gap, we introduce HUME: Human Evaluation
Framework for Text Embeddings. While frameworks like MTEB provide broad model
evaluation, they lack reliable estimates of human performance, limiting the
interpretability of model scores. We measure human performance across 16 MTEB
datasets spanning reranking, classification, clustering, and semantic textual
similarity across linguistically diverse high- and low-resource languages.
Humans achieve an average performance of 77.6% compared to 80.1% for the best
embedding model, although variation is substantial: models reach near-ceiling
performance on some datasets while struggling on others, suggesting dataset
issues and revealing shortcomings in low-resource languages. We provide human
performance baselines, insight into task difficulty patterns, and an extensible
evaluation framework that enables a more meaningful interpretation of the model
and informs the development of both models and benchmarks. Our code, dataset,
and leaderboard are publicly available at
https://github.com/embeddings-benchmark/mteb.