Leaderboards Confiáveis, Reproduzíveis e Realmente Rápidos com Evalica
Reliable, Reproducible, and Really Fast Leaderboards with Evalica
December 15, 2024
Autores: Dmitry Ustalov
cs.AI
Resumo
O rápido avanço das tecnologias de processamento de linguagem natural (PLN), como modelos de linguagem grandes (LLMs) ajustados para instrução, exige o desenvolvimento de protocolos de avaliação modernos com feedback humano e de máquina. Apresentamos o Evalica, um conjunto de ferramentas de código aberto que facilita a criação de classificações de modelos confiáveis e reproduzíveis. Este artigo apresenta seu design, avalia seu desempenho e demonstra sua usabilidade por meio de sua interface web, interface de linha de comando e API em Python.
English
The rapid advancement of natural language processing (NLP) technologies, such
as instruction-tuned large language models (LLMs), urges the development of
modern evaluation protocols with human and machine feedback. We introduce
Evalica, an open-source toolkit that facilitates the creation of reliable and
reproducible model leaderboards. This paper presents its design, evaluates its
performance, and demonstrates its usability through its Web interface,
command-line interface, and Python API.Summary
AI-Generated Summary