Leaderboards Confiáveis, Reproduzíveis e Realmente Rápidos com Evalica

Resumo

O rápido avanço das tecnologias de processamento de linguagem natural (PLN), como modelos de linguagem grandes (LLMs) ajustados para instrução, exige o desenvolvimento de protocolos de avaliação modernos com feedback humano e de máquina. Apresentamos o Evalica, um conjunto de ferramentas de código aberto que facilita a criação de classificações de modelos confiáveis e reproduzíveis. Este artigo apresenta seu design, avalia seu desempenho e demonstra sua usabilidade por meio de sua interface web, interface de linha de comando e API em Python.

English

The rapid advancement of natural language processing (NLP) technologies, such as instruction-tuned large language models (LLMs), urges the development of modern evaluation protocols with human and machine feedback. We introduce Evalica, an open-source toolkit that facilitates the creation of reliable and reproducible model leaderboards. This paper presents its design, evaluates its performance, and demonstrates its usability through its Web interface, command-line interface, and Python API.

Leaderboards Confiáveis, Reproduzíveis e Realmente Rápidos com Evalica

Reliable, Reproducible, and Really Fast Leaderboards with Evalica

Resumo

Support