HUME: 텍스트 임베딩 작업에서 인간-모델 성능 격차 측정하기
HUME: Measuring the Human-Model Performance Gap in Text Embedding Task
October 11, 2025
저자: Adnan El Assadi, Isaac Chung, Roman Solomatin, Niklas Muennighoff, Kenneth Enevoldsen
cs.AI
초록
인간과 모델의 성능을 비교하는 것은 임베딩 모델의 강점과 한계를 이해하고, 의미와 뉘앙스를 포착하는 데 있어 성공과 실패의 지점을 밝히는 데 유용한 관점을 제공합니다. 그러나 이러한 비교는 드물게 이루어지는데, 이는 임베딩 작업에서의 인간 성능을 측정하기가 어렵기 때문입니다. 이러한 격차를 메우기 위해, 우리는 HUME(Human Evaluation Framework for Text Embeddings)를 소개합니다. MTEB와 같은 프레임워크는 광범위한 모델 평가를 제공하지만, 인간 성능에 대한 신뢰할 수 있는 추정치가 부족하여 모델 점수의 해석 가능성을 제한합니다. 우리는 리랭킹, 분류, 클러스터링, 그리고 언어적으로 다양한 고자원 및 저자원 언어에 걸친 의미적 텍스트 유사성을 포함한 16개의 MTEB 데이터셋에서 인간 성능을 측정했습니다. 인간은 평균 77.6%의 성능을 달성했으며, 이는 최고의 임베딩 모델의 80.1%와 비교됩니다. 그러나 변동이 크다는 점을 확인했습니다: 모델은 일부 데이터셋에서는 거의 최고 수준의 성능을 보이지만, 다른 데이터셋에서는 어려움을 겪으며, 이는 데이터셋의 문제와 저자원 언어에서의 단점을 드러냅니다. 우리는 인간 성능 기준선, 작업 난이도 패턴에 대한 통찰, 그리고 모델의 해석을 더 의미 있게 하고 모델 및 벤치마크 개발에 정보를 제공하는 확장 가능한 평가 프레임워크를 제공합니다. 우리의 코드, 데이터셋, 리더보드는 https://github.com/embeddings-benchmark/mteb에서 공개적으로 이용 가능합니다.
English
Comparing human and model performance offers a valuable perspective for
understanding the strengths and limitations of embedding models, highlighting
where they succeed and where they fail to capture meaning and nuance. However,
such comparisons are rarely made, as human performance on embedding tasks is
difficult to measure. To fill this gap, we introduce HUME: Human Evaluation
Framework for Text Embeddings. While frameworks like MTEB provide broad model
evaluation, they lack reliable estimates of human performance, limiting the
interpretability of model scores. We measure human performance across 16 MTEB
datasets spanning reranking, classification, clustering, and semantic textual
similarity across linguistically diverse high- and low-resource languages.
Humans achieve an average performance of 77.6% compared to 80.1% for the best
embedding model, although variation is substantial: models reach near-ceiling
performance on some datasets while struggling on others, suggesting dataset
issues and revealing shortcomings in low-resource languages. We provide human
performance baselines, insight into task difficulty patterns, and an extensible
evaluation framework that enables a more meaningful interpretation of the model
and informs the development of both models and benchmarks. Our code, dataset,
and leaderboard are publicly available at
https://github.com/embeddings-benchmark/mteb.