Tableaux de classement fiables, reproductibles et vraiment rapides avec Evalica

Résumé

L'avancée rapide des technologies de traitement du langage naturel (NLP), telles que les grands modèles de langage ajustés aux instructions (LLMs), nécessite le développement de protocoles d'évaluation modernes avec des retours humains et machine. Nous introduisons Evalica, une boîte à outils open-source qui facilite la création de tableaux de classement de modèles fiables et reproductibles. Cet article présente sa conception, évalue ses performances et démontre sa facilité d'utilisation à travers son interface Web, son interface en ligne de commande et son API Python.

English

The rapid advancement of natural language processing (NLP) technologies, such as instruction-tuned large language models (LLMs), urges the development of modern evaluation protocols with human and machine feedback. We introduce Evalica, an open-source toolkit that facilitates the creation of reliable and reproducible model leaderboards. This paper presents its design, evaluates its performance, and demonstrates its usability through its Web interface, command-line interface, and Python API.