Tablas de clasificación confiables, reproducibles y realmente rápidas con Evalica.

Resumen

El rápido avance de las tecnologías de procesamiento de lenguaje natural (NLP), como los modelos de lenguaje grandes (LLMs) ajustados a instrucciones, insta al desarrollo de protocolos de evaluación modernos con retroalimentación humana y de máquina. Presentamos Evalica, una herramienta de código abierto que facilita la creación de tablas de clasificación de modelos confiables y reproducibles. Este artículo presenta su diseño, evalúa su rendimiento y demuestra su usabilidad a través de su interfaz web, interfaz de línea de comandos y API de Python.

English

The rapid advancement of natural language processing (NLP) technologies, such as instruction-tuned large language models (LLMs), urges the development of modern evaluation protocols with human and machine feedback. We introduce Evalica, an open-source toolkit that facilitates the creation of reliable and reproducible model leaderboards. This paper presents its design, evaluates its performance, and demonstrates its usability through its Web interface, command-line interface, and Python API.