Надежные, воспроизводимые и действительно быстрые таблицы лидеров с помощью Evalica.

Аннотация

Быстрое развитие технологий обработки естественного языка (NLP), таких как настроенные на инструкции большие языковые модели (LLM), требует разработки современных протоколов оценки с обратной связью от людей и машин. Мы представляем Evalica, набор инструментов с открытым исходным кодом, который облегчает создание надежных и воспроизводимых рейтингов моделей. В данной статье представлен ее дизайн, оценена производительность и продемонстрирована ее применимость через веб-интерфейс, интерфейс командной строки и Python API.

English

The rapid advancement of natural language processing (NLP) technologies, such as instruction-tuned large language models (LLMs), urges the development of modern evaluation protocols with human and machine feedback. We introduce Evalica, an open-source toolkit that facilitates the creation of reliable and reproducible model leaderboards. This paper presents its design, evaluates its performance, and demonstrates its usability through its Web interface, command-line interface, and Python API.