HUME: Medindo a Lacuna de Desempenho entre Humanos e Modelos em Tarefas de Incorporação de Texto

Resumo

Comparar o desempenho humano e de modelos oferece uma perspectiva valiosa para entender os pontos fortes e as limitações dos modelos de embeddings, destacando onde eles têm sucesso e onde falham em capturar significado e nuances. No entanto, tais comparações raramente são feitas, pois o desempenho humano em tarefas de embeddings é difícil de medir. Para preencher essa lacuna, introduzimos o HUME: Framework de Avaliação Humana para Embeddings de Texto. Embora frameworks como o MTEB forneçam uma avaliação ampla de modelos, eles carecem de estimativas confiáveis do desempenho humano, limitando a interpretabilidade das pontuações dos modelos. Medimos o desempenho humano em 16 conjuntos de dados do MTEB, abrangendo reranking, classificação, clustering e similaridade semântica textual em línguas de alta e baixa recursos linguisticamente diversas. Os humanos alcançam um desempenho médio de 77,6% em comparação com 80,1% do melhor modelo de embedding, embora a variação seja substancial: os modelos atingem desempenho próximo ao máximo em alguns conjuntos de dados, enquanto lutam em outros, sugerindo problemas nos conjuntos de dados e revelando deficiências em línguas de baixa recursos. Fornecemos baselines de desempenho humano, insights sobre padrões de dificuldade de tarefas e um framework de avaliação extensível que permite uma interpretação mais significativa do modelo e informa o desenvolvimento tanto de modelos quanto de benchmarks. Nosso código, conjunto de dados e leaderboard estão publicamente disponíveis em https://github.com/embeddings-benchmark/mteb.

English

Comparing human and model performance offers a valuable perspective for understanding the strengths and limitations of embedding models, highlighting where they succeed and where they fail to capture meaning and nuance. However, such comparisons are rarely made, as human performance on embedding tasks is difficult to measure. To fill this gap, we introduce HUME: Human Evaluation Framework for Text Embeddings. While frameworks like MTEB provide broad model evaluation, they lack reliable estimates of human performance, limiting the interpretability of model scores. We measure human performance across 16 MTEB datasets spanning reranking, classification, clustering, and semantic textual similarity across linguistically diverse high- and low-resource languages. Humans achieve an average performance of 77.6% compared to 80.1% for the best embedding model, although variation is substantial: models reach near-ceiling performance on some datasets while struggling on others, suggesting dataset issues and revealing shortcomings in low-resource languages. We provide human performance baselines, insight into task difficulty patterns, and an extensible evaluation framework that enables a more meaningful interpretation of the model and informs the development of both models and benchmarks. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.

HUME: Medindo a Lacuna de Desempenho entre Humanos e Modelos em Tarefas de Incorporação de Texto

HUME: Measuring the Human-Model Performance Gap in Text Embedding Task

Resumo

Support