Проблемы надежной человеческой оценки ботов для чата
Challenges in Trustworthy Human Evaluation of Chatbots
December 5, 2024
Авторы: Wenting Zhao, Alexander M. Rush, Tanya Goyal
cs.AI
Аннотация
Открытые платформы, управляемые сообществом, такие как Chatbot Arena, которые собирают данные о предпочтениях пользователей среди посетителей сайта, завоевали репутацию одного из наиболее надежных публично доступных бенчмарков для оценки производительности LLM. Хотя сейчас это стандартная практика, сложно реализовать эффективные меры безопасности для сбора аннотаций высокого качества от людей. В данной статье мы демонстрируем, что три источника плохих аннотаций, как злонамеренных, так и других, могут исказить надежность рейтингов открытого лидерборда. В частности, мы показываем, что всего лишь 10\% голосов низкого качества от апатичных (посетители сайта, которым не было должным образом предоставлено стимул для выдачи правильных голосов) или агрессивных (злоумышленники, стремящиеся завысить рейтинг целевой модели) аннотаторов могут изменить рейтинги моделей до 5 мест на лидерборде. Наконец, мы обсуждаем открытые проблемы обеспечения аннотаций высокого качества со стороны людей.
English
Open community-driven platforms like Chatbot Arena that collect user
preference data from site visitors have gained a reputation as one of the most
trustworthy publicly available benchmarks for LLM performance. While now
standard, it is tricky to implement effective guardrails to collect
high-quality annotations from humans. In this paper, we demonstrate that three
sources of bad annotations, both malicious and otherwise, can corrupt the
reliability of open leaderboard rankings. In particular, we show that only 10\%
of poor quality votes by apathetic (site visitors not appropriately
incentivized to give correct votes) or adversarial (bad actors seeking to
inflate the ranking of a target model) annotators can change the rankings of
models by up to 5 places on the leaderboard. Finally, we discuss open
challenges in ensuring high-quality human annotations.