Betrouwbare, Reproduceerbare en Razendsnelle Scoreborden met Evalica

Samenvatting

De snelle vooruitgang van natuurlijke taalverwerkingstechnologieën, zoals instructie-afgestemde grote taalmodellen (LLM's), dringt aan op de ontwikkeling van moderne evaluatieprotocollen met menselijke en machinale feedback. We introduceren Evalica, een open-source toolkit die de creatie van betrouwbare en reproduceerbare modelleiderborden vergemakkelijkt. Dit artikel presenteert het ontwerp, evalueert de prestaties en demonstreert de bruikbaarheid ervan via de webinterface, command-line interface en Python API.

English

The rapid advancement of natural language processing (NLP) technologies, such as instruction-tuned large language models (LLMs), urges the development of modern evaluation protocols with human and machine feedback. We introduce Evalica, an open-source toolkit that facilitates the creation of reliable and reproducible model leaderboards. This paper presents its design, evaluates its performance, and demonstrates its usability through its Web interface, command-line interface, and Python API.

Betrouwbare, Reproduceerbare en Razendsnelle Scoreborden met Evalica

Reliable, Reproducible, and Really Fast Leaderboards with Evalica

Samenvatting

Support