Tableaux de classement fiables, reproductibles et vraiment rapides avec Evalica
Reliable, Reproducible, and Really Fast Leaderboards with Evalica
December 15, 2024
Auteurs: Dmitry Ustalov
cs.AI
Résumé
L'avancée rapide des technologies de traitement du langage naturel (NLP), telles que les grands modèles de langage ajustés aux instructions (LLMs), nécessite le développement de protocoles d'évaluation modernes avec des retours humains et machine. Nous introduisons Evalica, une boîte à outils open-source qui facilite la création de tableaux de classement de modèles fiables et reproductibles. Cet article présente sa conception, évalue ses performances et démontre sa facilité d'utilisation à travers son interface Web, son interface en ligne de commande et son API Python.
English
The rapid advancement of natural language processing (NLP) technologies, such
as instruction-tuned large language models (LLMs), urges the development of
modern evaluation protocols with human and machine feedback. We introduce
Evalica, an open-source toolkit that facilitates the creation of reliable and
reproducible model leaderboards. This paper presents its design, evaluates its
performance, and demonstrates its usability through its Web interface,
command-line interface, and Python API.Summary
AI-Generated Summary