Herausforderungen bei der vertrauenswürdigen menschlichen Bewertung von Chatbots
Challenges in Trustworthy Human Evaluation of Chatbots
December 5, 2024
Autoren: Wenting Zhao, Alexander M. Rush, Tanya Goyal
cs.AI
Zusammenfassung
Offene Community-Plattformen wie Chatbot Arena, die Nutzervorlieben von Seitenbesuchern sammeln, haben sich einen Ruf als eine der vertrauenswürdigsten öffentlich verfügbaren Referenzwerte für die Leistung von LLMs erarbeitet. Obwohl mittlerweile Standard, gestaltet es sich schwierig, effektive Schutzmechanismen zu implementieren, um hochwertige Annotationen von Menschen zu sammeln. In diesem Paper zeigen wir, dass drei Quellen schlechter Annotationen, sowohl bösartiger als auch anderweitig fehlerhafter Art, die Zuverlässigkeit von offenen Bestenlisten-Rankings beeinträchtigen können. Insbesondere zeigen wir, dass bereits 10\% minderwertiger Bewertungen durch gleichgültige (Seitenbesucher, die nicht angemessen incentiviert sind, korrekte Bewertungen abzugeben) oder feindlich gesinnte (schlechte Akteure, die versuchen, das Ranking eines Zielmodells zu manipulieren) Annotatoren die Platzierungen von Modellen um bis zu 5 Plätze auf der Bestenliste verändern können. Abschließend diskutieren wir offene Herausforderungen bei der Sicherstellung hochwertiger menschlicher Annotationen.
English
Open community-driven platforms like Chatbot Arena that collect user
preference data from site visitors have gained a reputation as one of the most
trustworthy publicly available benchmarks for LLM performance. While now
standard, it is tricky to implement effective guardrails to collect
high-quality annotations from humans. In this paper, we demonstrate that three
sources of bad annotations, both malicious and otherwise, can corrupt the
reliability of open leaderboard rankings. In particular, we show that only 10\%
of poor quality votes by apathetic (site visitors not appropriately
incentivized to give correct votes) or adversarial (bad actors seeking to
inflate the ranking of a target model) annotators can change the rankings of
models by up to 5 places on the leaderboard. Finally, we discuss open
challenges in ensuring high-quality human annotations.Summary
AI-Generated Summary