Défis dans l'évaluation humaine fiable des agents conversationnels.
Challenges in Trustworthy Human Evaluation of Chatbots
December 5, 2024
Auteurs: Wenting Zhao, Alexander M. Rush, Tanya Goyal
cs.AI
Résumé
Des plateformes ouvertes et collaboratives telles que Chatbot Arena, qui collectent des données de préférence des utilisateurs visiteurs du site, ont acquis une réputation en tant que l'un des benchmarks publiquement disponibles les plus fiables pour la performance des LLM. Bien que désormais standard, il est délicat de mettre en place des garde-fous efficaces pour collecter des annotations de haute qualité de la part des humains. Dans cet article, nous démontrons que trois sources d'annotations de mauvaise qualité, à la fois malveillantes et autres, peuvent corrompre la fiabilité des classements des tableaux de bord ouverts. En particulier, nous montrons que seulement 10\% des votes de mauvaise qualité par des annotateurs apathiques (visiteurs du site non incités de manière appropriée à donner des votes corrects) ou adversaires (mauvais acteurs cherchant à gonfler le classement d'un modèle cible) peuvent modifier les classements des modèles jusqu'à 5 places sur le tableau de bord. Enfin, nous discutons des défis ouverts pour garantir des annotations humaines de haute qualité.
English
Open community-driven platforms like Chatbot Arena that collect user
preference data from site visitors have gained a reputation as one of the most
trustworthy publicly available benchmarks for LLM performance. While now
standard, it is tricky to implement effective guardrails to collect
high-quality annotations from humans. In this paper, we demonstrate that three
sources of bad annotations, both malicious and otherwise, can corrupt the
reliability of open leaderboard rankings. In particular, we show that only 10\%
of poor quality votes by apathetic (site visitors not appropriately
incentivized to give correct votes) or adversarial (bad actors seeking to
inflate the ranking of a target model) annotators can change the rankings of
models by up to 5 places on the leaderboard. Finally, we discuss open
challenges in ensuring high-quality human annotations.Summary
AI-Generated Summary