Desafios na Avaliação Confiável de Chatbots por Humanos
Challenges in Trustworthy Human Evaluation of Chatbots
December 5, 2024
Autores: Wenting Zhao, Alexander M. Rush, Tanya Goyal
cs.AI
Resumo
Plataformas abertas orientadas pela comunidade, como o Chatbot Arena, que coletam dados de preferência do usuário de visitantes do site, ganharam reputação como um dos benchmarks publicamente disponíveis mais confiáveis para o desempenho de LLM. Embora agora padrão, é complicado implementar diretrizes eficazes para coletar anotações de alta qualidade de humanos. Neste artigo, demonstramos que três fontes de más anotações, tanto maliciosas quanto não intencionais, podem corromper a confiabilidade das classificações de líderes de placar aberto. Em particular, mostramos que apenas 10% dos votos de baixa qualidade por anotadores apáticos (visitantes do site não devidamente incentivados a fornecer votos corretos) ou adversários (atores mal-intencionados buscando inflar a classificação de um modelo-alvo) podem alterar as classificações dos modelos em até 5 posições no placar. Por fim, discutimos os desafios abertos em garantir anotações humanas de alta qualidade.
English
Open community-driven platforms like Chatbot Arena that collect user
preference data from site visitors have gained a reputation as one of the most
trustworthy publicly available benchmarks for LLM performance. While now
standard, it is tricky to implement effective guardrails to collect
high-quality annotations from humans. In this paper, we demonstrate that three
sources of bad annotations, both malicious and otherwise, can corrupt the
reliability of open leaderboard rankings. In particular, we show that only 10\%
of poor quality votes by apathetic (site visitors not appropriately
incentivized to give correct votes) or adversarial (bad actors seeking to
inflate the ranking of a target model) annotators can change the rankings of
models by up to 5 places on the leaderboard. Finally, we discuss open
challenges in ensuring high-quality human annotations.Summary
AI-Generated Summary