Desafíos en la Evaluación Confiable por Humanos de los Chatbots
Challenges in Trustworthy Human Evaluation of Chatbots
December 5, 2024
Autores: Wenting Zhao, Alexander M. Rush, Tanya Goyal
cs.AI
Resumen
Plataformas abiertas impulsadas por la comunidad, como Chatbot Arena, que recopilan datos de preferencia de los visitantes del sitio, han adquirido una reputación como uno de los benchmarks públicamente disponibles más confiables para el rendimiento de Modelos de Lenguaje con Grandes Dimensiones (LLM, por sus siglas en inglés). Aunque ahora es estándar, resulta complicado implementar salvaguardias efectivas para recopilar anotaciones de alta calidad de los seres humanos. En este documento, demostramos que tres fuentes de anotaciones deficientes, ya sean maliciosas u otras, pueden corromper la confiabilidad de las clasificaciones en los tableros de líderes abiertos. En particular, mostramos que solo el 10\% de votos de baja calidad por parte de anotadores apáticos (visitantes del sitio no incentivados adecuadamente para dar votos correctos) o adversarios (actores malintencionados que buscan inflar la clasificación de un modelo específico) pueden cambiar las posiciones de los modelos hasta en 5 lugares en el tablero de líderes. Por último, discutimos los desafíos abiertos para garantizar anotaciones humanas de alta calidad.
English
Open community-driven platforms like Chatbot Arena that collect user
preference data from site visitors have gained a reputation as one of the most
trustworthy publicly available benchmarks for LLM performance. While now
standard, it is tricky to implement effective guardrails to collect
high-quality annotations from humans. In this paper, we demonstrate that three
sources of bad annotations, both malicious and otherwise, can corrupt the
reliability of open leaderboard rankings. In particular, we show that only 10\%
of poor quality votes by apathetic (site visitors not appropriately
incentivized to give correct votes) or adversarial (bad actors seeking to
inflate the ranking of a target model) annotators can change the rankings of
models by up to 5 places on the leaderboard. Finally, we discuss open
challenges in ensuring high-quality human annotations.Summary
AI-Generated Summary