Zuverlässige, reproduzierbare und wirklich schnelle Ranglisten mit Evalica.

Zusammenfassung

Der rasante Fortschritt von Technologien im Bereich der natürlichen Sprachverarbeitung (NLP), wie beispielsweise anweisungsgesteuerte große Sprachmodelle (LLMs), erfordert die Entwicklung moderner Evaluierungsprotokolle mit menschlichem und maschinellem Feedback. Wir stellen Evalica vor, ein Open-Source-Toolkit, das die Erstellung zuverlässiger und reproduzierbarer Ranglisten von Modellen erleichtert. Dieses Papier präsentiert das Design, bewertet die Leistung und zeigt die Benutzerfreundlichkeit durch die Web-Benutzeroberfläche, die Befehlszeilenschnittstelle und die Python-API auf.

English

The rapid advancement of natural language processing (NLP) technologies, such as instruction-tuned large language models (LLMs), urges the development of modern evaluation protocols with human and machine feedback. We introduce Evalica, an open-source toolkit that facilitates the creation of reliable and reproducible model leaderboards. This paper presents its design, evaluates its performance, and demonstrates its usability through its Web interface, command-line interface, and Python API.