HUME: Messung der Leistungslücke zwischen Mensch und Modell bei der Text-Einbettungsaufgabe

Zusammenfassung

Der Vergleich von menschlicher und Modellleistung bietet eine wertvolle Perspektive, um die Stärken und Grenzen von Embedding-Modellen zu verstehen, und zeigt auf, wo sie erfolgreich sind und wo sie Bedeutung und Nuancen nicht erfassen können. Solche Vergleiche werden jedoch selten angestellt, da die menschliche Leistung bei Embedding-Aufgaben schwer zu messen ist. Um diese Lücke zu schließen, führen wir HUME ein: ein Human Evaluation Framework for Text Embeddings. Während Frameworks wie MTEB eine breite Modellbewertung bieten, fehlen ihnen zuverlässige Schätzungen der menschlichen Leistung, was die Interpretierbarkeit der Modellergebnisse einschränkt. Wir messen die menschliche Leistung über 16 MTEB-Datensätze hinweg, die Neusortierung, Klassifizierung, Clustering und semantische Textähnlichkeit in linguistisch diversen Hoch- und Niedrigressourcen-Sprachen abdecken. Menschen erreichen eine durchschnittliche Leistung von 77,6 % im Vergleich zu 80,1 % für das beste Embedding-Modell, wobei die Variation erheblich ist: Modelle erreichen nahezu maximale Leistung bei einigen Datensätzen, während sie bei anderen Schwierigkeiten haben, was auf Probleme mit den Datensätzen hinweist und Schwächen in Niedrigressourcen-Sprachen offenbart. Wir liefern menschliche Leistungsbaselines, Einblicke in Muster der Aufgabenkomplexität und ein erweiterbares Bewertungsframework, das eine aussagekräftigere Interpretation der Modelle ermöglicht und die Entwicklung sowohl von Modellen als auch von Benchmarks informiert. Unser Code, Datensätze und Leaderboard sind öffentlich verfügbar unter https://github.com/embeddings-benchmark/mteb.

English

Comparing human and model performance offers a valuable perspective for understanding the strengths and limitations of embedding models, highlighting where they succeed and where they fail to capture meaning and nuance. However, such comparisons are rarely made, as human performance on embedding tasks is difficult to measure. To fill this gap, we introduce HUME: Human Evaluation Framework for Text Embeddings. While frameworks like MTEB provide broad model evaluation, they lack reliable estimates of human performance, limiting the interpretability of model scores. We measure human performance across 16 MTEB datasets spanning reranking, classification, clustering, and semantic textual similarity across linguistically diverse high- and low-resource languages. Humans achieve an average performance of 77.6% compared to 80.1% for the best embedding model, although variation is substantial: models reach near-ceiling performance on some datasets while struggling on others, suggesting dataset issues and revealing shortcomings in low-resource languages. We provide human performance baselines, insight into task difficulty patterns, and an extensible evaluation framework that enables a more meaningful interpretation of the model and informs the development of both models and benchmarks. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.