HUME: Messung der Leistungslücke zwischen Mensch und Modell bei der Text-Einbettungsaufgabe
HUME: Measuring the Human-Model Performance Gap in Text Embedding Task
October 11, 2025
papers.authors: Adnan El Assadi, Isaac Chung, Roman Solomatin, Niklas Muennighoff, Kenneth Enevoldsen
cs.AI
papers.abstract
Der Vergleich von menschlicher und Modellleistung bietet eine wertvolle Perspektive, um die Stärken und Grenzen von Embedding-Modellen zu verstehen, und zeigt auf, wo sie erfolgreich sind und wo sie Bedeutung und Nuancen nicht erfassen können. Solche Vergleiche werden jedoch selten angestellt, da die menschliche Leistung bei Embedding-Aufgaben schwer zu messen ist. Um diese Lücke zu schließen, führen wir HUME ein: ein Human Evaluation Framework for Text Embeddings. Während Frameworks wie MTEB eine breite Modellbewertung bieten, fehlen ihnen zuverlässige Schätzungen der menschlichen Leistung, was die Interpretierbarkeit der Modellergebnisse einschränkt. Wir messen die menschliche Leistung über 16 MTEB-Datensätze hinweg, die Neusortierung, Klassifizierung, Clustering und semantische Textähnlichkeit in linguistisch diversen Hoch- und Niedrigressourcen-Sprachen abdecken. Menschen erreichen eine durchschnittliche Leistung von 77,6 % im Vergleich zu 80,1 % für das beste Embedding-Modell, wobei die Variation erheblich ist: Modelle erreichen nahezu maximale Leistung bei einigen Datensätzen, während sie bei anderen Schwierigkeiten haben, was auf Probleme mit den Datensätzen hinweist und Schwächen in Niedrigressourcen-Sprachen offenbart. Wir liefern menschliche Leistungsbaselines, Einblicke in Muster der Aufgabenkomplexität und ein erweiterbares Bewertungsframework, das eine aussagekräftigere Interpretation der Modelle ermöglicht und die Entwicklung sowohl von Modellen als auch von Benchmarks informiert. Unser Code, Datensätze und Leaderboard sind öffentlich verfügbar unter https://github.com/embeddings-benchmark/mteb.
English
Comparing human and model performance offers a valuable perspective for
understanding the strengths and limitations of embedding models, highlighting
where they succeed and where they fail to capture meaning and nuance. However,
such comparisons are rarely made, as human performance on embedding tasks is
difficult to measure. To fill this gap, we introduce HUME: Human Evaluation
Framework for Text Embeddings. While frameworks like MTEB provide broad model
evaluation, they lack reliable estimates of human performance, limiting the
interpretability of model scores. We measure human performance across 16 MTEB
datasets spanning reranking, classification, clustering, and semantic textual
similarity across linguistically diverse high- and low-resource languages.
Humans achieve an average performance of 77.6% compared to 80.1% for the best
embedding model, although variation is substantial: models reach near-ceiling
performance on some datasets while struggling on others, suggesting dataset
issues and revealing shortcomings in low-resource languages. We provide human
performance baselines, insight into task difficulty patterns, and an extensible
evaluation framework that enables a more meaningful interpretation of the model
and informs the development of both models and benchmarks. Our code, dataset,
and leaderboard are publicly available at
https://github.com/embeddings-benchmark/mteb.