HUME: Medindo a Lacuna de Desempenho entre Humanos e Modelos em Tarefas de Incorporação de Texto
HUME: Measuring the Human-Model Performance Gap in Text Embedding Task
October 11, 2025
Autores: Adnan El Assadi, Isaac Chung, Roman Solomatin, Niklas Muennighoff, Kenneth Enevoldsen
cs.AI
Resumo
Comparar o desempenho humano e de modelos oferece uma perspectiva valiosa para entender os pontos fortes e as limitações dos modelos de embeddings, destacando onde eles têm sucesso e onde falham em capturar significado e nuances. No entanto, tais comparações raramente são feitas, pois o desempenho humano em tarefas de embeddings é difícil de medir. Para preencher essa lacuna, introduzimos o HUME: Framework de Avaliação Humana para Embeddings de Texto. Embora frameworks como o MTEB forneçam uma avaliação ampla de modelos, eles carecem de estimativas confiáveis do desempenho humano, limitando a interpretabilidade das pontuações dos modelos. Medimos o desempenho humano em 16 conjuntos de dados do MTEB, abrangendo reranking, classificação, clustering e similaridade semântica textual em línguas de alta e baixa recursos linguisticamente diversas. Os humanos alcançam um desempenho médio de 77,6% em comparação com 80,1% do melhor modelo de embedding, embora a variação seja substancial: os modelos atingem desempenho próximo ao máximo em alguns conjuntos de dados, enquanto lutam em outros, sugerindo problemas nos conjuntos de dados e revelando deficiências em línguas de baixa recursos. Fornecemos baselines de desempenho humano, insights sobre padrões de dificuldade de tarefas e um framework de avaliação extensível que permite uma interpretação mais significativa do modelo e informa o desenvolvimento tanto de modelos quanto de benchmarks. Nosso código, conjunto de dados e leaderboard estão publicamente disponíveis em https://github.com/embeddings-benchmark/mteb.
English
Comparing human and model performance offers a valuable perspective for
understanding the strengths and limitations of embedding models, highlighting
where they succeed and where they fail to capture meaning and nuance. However,
such comparisons are rarely made, as human performance on embedding tasks is
difficult to measure. To fill this gap, we introduce HUME: Human Evaluation
Framework for Text Embeddings. While frameworks like MTEB provide broad model
evaluation, they lack reliable estimates of human performance, limiting the
interpretability of model scores. We measure human performance across 16 MTEB
datasets spanning reranking, classification, clustering, and semantic textual
similarity across linguistically diverse high- and low-resource languages.
Humans achieve an average performance of 77.6% compared to 80.1% for the best
embedding model, although variation is substantial: models reach near-ceiling
performance on some datasets while struggling on others, suggesting dataset
issues and revealing shortcomings in low-resource languages. We provide human
performance baselines, insight into task difficulty patterns, and an extensible
evaluation framework that enables a more meaningful interpretation of the model
and informs the development of both models and benchmarks. Our code, dataset,
and leaderboard are publicly available at
https://github.com/embeddings-benchmark/mteb.