Tablas de clasificación confiables, reproducibles y realmente rápidas con Evalica.
Reliable, Reproducible, and Really Fast Leaderboards with Evalica
December 15, 2024
Autores: Dmitry Ustalov
cs.AI
Resumen
El rápido avance de las tecnologías de procesamiento de lenguaje natural (NLP), como los modelos de lenguaje grandes (LLMs) ajustados a instrucciones, insta al desarrollo de protocolos de evaluación modernos con retroalimentación humana y de máquina. Presentamos Evalica, una herramienta de código abierto que facilita la creación de tablas de clasificación de modelos confiables y reproducibles. Este artículo presenta su diseño, evalúa su rendimiento y demuestra su usabilidad a través de su interfaz web, interfaz de línea de comandos y API de Python.
English
The rapid advancement of natural language processing (NLP) technologies, such
as instruction-tuned large language models (LLMs), urges the development of
modern evaluation protocols with human and machine feedback. We introduce
Evalica, an open-source toolkit that facilitates the creation of reliable and
reproducible model leaderboards. This paper presents its design, evaluates its
performance, and demonstrates its usability through its Web interface,
command-line interface, and Python API.Summary
AI-Generated Summary