Zuverlässige, reproduzierbare und wirklich schnelle Ranglisten mit Evalica.
Reliable, Reproducible, and Really Fast Leaderboards with Evalica
December 15, 2024
Autoren: Dmitry Ustalov
cs.AI
Zusammenfassung
Der rasante Fortschritt von Technologien im Bereich der natürlichen Sprachverarbeitung (NLP), wie beispielsweise anweisungsgesteuerte große Sprachmodelle (LLMs), erfordert die Entwicklung moderner Evaluierungsprotokolle mit menschlichem und maschinellem Feedback. Wir stellen Evalica vor, ein Open-Source-Toolkit, das die Erstellung zuverlässiger und reproduzierbarer Ranglisten von Modellen erleichtert. Dieses Papier präsentiert das Design, bewertet die Leistung und zeigt die Benutzerfreundlichkeit durch die Web-Benutzeroberfläche, die Befehlszeilenschnittstelle und die Python-API auf.
English
The rapid advancement of natural language processing (NLP) technologies, such
as instruction-tuned large language models (LLMs), urges the development of
modern evaluation protocols with human and machine feedback. We introduce
Evalica, an open-source toolkit that facilitates the creation of reliable and
reproducible model leaderboards. This paper presents its design, evaluates its
performance, and demonstrates its usability through its Web interface,
command-line interface, and Python API.Summary
AI-Generated Summary