ChatPaper.aiChatPaper

HUME: Medición de la Brecha de Rendimiento Humano-Modelo en Tareas de Incrustación de Texto

HUME: Measuring the Human-Model Performance Gap in Text Embedding Task

October 11, 2025
Autores: Adnan El Assadi, Isaac Chung, Roman Solomatin, Niklas Muennighoff, Kenneth Enevoldsen
cs.AI

Resumen

Comparar el rendimiento humano y el de los modelos ofrece una perspectiva valiosa para comprender las fortalezas y limitaciones de los modelos de embeddings, destacando dónde tienen éxito y dónde fallan en capturar el significado y los matices. Sin embargo, tales comparaciones rara vez se realizan, ya que el rendimiento humano en tareas de embeddings es difícil de medir. Para llenar este vacío, presentamos HUME: Marco de Evaluación Humana para Text Embeddings. Si bien marcos como MTEB proporcionan una evaluación amplia de modelos, carecen de estimaciones confiables del rendimiento humano, lo que limita la interpretabilidad de las puntuaciones de los modelos. Medimos el rendimiento humano en 16 conjuntos de datos de MTEB que abarcan reordenamiento, clasificación, agrupación y similitud semántica textual en idiomas diversos, tanto de recursos altos como bajos. Los humanos alcanzan un rendimiento promedio del 77.6% en comparación con el 80.1% del mejor modelo de embeddings, aunque la variación es considerable: los modelos alcanzan un rendimiento casi máximo en algunos conjuntos de datos mientras luchan en otros, lo que sugiere problemas en los conjuntos de datos y revela deficiencias en idiomas de bajos recursos. Proporcionamos líneas base de rendimiento humano, información sobre patrones de dificultad de tareas y un marco de evaluación extensible que permite una interpretación más significativa del modelo e informa el desarrollo tanto de modelos como de benchmarks. Nuestro código, conjunto de datos y tabla de clasificación están disponibles públicamente en https://github.com/embeddings-benchmark/mteb.
English
Comparing human and model performance offers a valuable perspective for understanding the strengths and limitations of embedding models, highlighting where they succeed and where they fail to capture meaning and nuance. However, such comparisons are rarely made, as human performance on embedding tasks is difficult to measure. To fill this gap, we introduce HUME: Human Evaluation Framework for Text Embeddings. While frameworks like MTEB provide broad model evaluation, they lack reliable estimates of human performance, limiting the interpretability of model scores. We measure human performance across 16 MTEB datasets spanning reranking, classification, clustering, and semantic textual similarity across linguistically diverse high- and low-resource languages. Humans achieve an average performance of 77.6% compared to 80.1% for the best embedding model, although variation is substantial: models reach near-ceiling performance on some datasets while struggling on others, suggesting dataset issues and revealing shortcomings in low-resource languages. We provide human performance baselines, insight into task difficulty patterns, and an extensible evaluation framework that enables a more meaningful interpretation of the model and informs the development of both models and benchmarks. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.
PDF82October 14, 2025