ChatPaper.aiChatPaper

Uitdagingen bij Betrouwbare Menselijke Evaluatie van Chatbots

Challenges in Trustworthy Human Evaluation of Chatbots

December 5, 2024
Auteurs: Wenting Zhao, Alexander M. Rush, Tanya Goyal
cs.AI

Samenvatting

Open community-driven platforms zoals Chatbot Arena die gebruikersvoorkeursgegevens van sitebezoekers verzamelen, hebben een reputatie opgebouwd als een van de meest betrouwbare publiekelijk beschikbare benchmarks voor de prestaties van LLM. Hoewel nu standaard, is het lastig om effectieve waarborgen te implementeren om hoogwaardige annotaties van mensen te verzamelen. In dit artikel tonen we aan dat drie bronnen van slechte annotaties, zowel kwaadwillig als anderszins, de betrouwbaarheid van open ranglijsten kunnen aantasten. In het bijzonder laten we zien dat slechts 10% van de van slechte kwaliteit zijnde stemmen door apathische (sitebezoekers die niet op passende wijze gestimuleerd worden om correcte stemmen uit te brengen) of vijandige (slechte actoren die de ranglijst van een doelmodel willen opblazen) annotatoren de ranglijsten van modellen tot wel 5 plaatsen op de ranglijst kunnen veranderen. Tot slot bespreken we open uitdagingen bij het waarborgen van hoogwaardige menselijke annotaties.
English
Open community-driven platforms like Chatbot Arena that collect user preference data from site visitors have gained a reputation as one of the most trustworthy publicly available benchmarks for LLM performance. While now standard, it is tricky to implement effective guardrails to collect high-quality annotations from humans. In this paper, we demonstrate that three sources of bad annotations, both malicious and otherwise, can corrupt the reliability of open leaderboard rankings. In particular, we show that only 10\% of poor quality votes by apathetic (site visitors not appropriately incentivized to give correct votes) or adversarial (bad actors seeking to inflate the ranking of a target model) annotators can change the rankings of models by up to 5 places on the leaderboard. Finally, we discuss open challenges in ensuring high-quality human annotations.
PDF42December 6, 2024