Надежные, воспроизводимые и действительно быстрые таблицы лидеров с помощью Evalica.
Reliable, Reproducible, and Really Fast Leaderboards with Evalica
December 15, 2024
Авторы: Dmitry Ustalov
cs.AI
Аннотация
Быстрое развитие технологий обработки естественного языка (NLP), таких как настроенные на инструкции большие языковые модели (LLM), требует разработки современных протоколов оценки с обратной связью от людей и машин. Мы представляем Evalica, набор инструментов с открытым исходным кодом, который облегчает создание надежных и воспроизводимых рейтингов моделей. В данной статье представлен ее дизайн, оценена производительность и продемонстрирована ее применимость через веб-интерфейс, интерфейс командной строки и Python API.
English
The rapid advancement of natural language processing (NLP) technologies, such
as instruction-tuned large language models (LLMs), urges the development of
modern evaluation protocols with human and machine feedback. We introduce
Evalica, an open-source toolkit that facilitates the creation of reliable and
reproducible model leaderboards. This paper presents its design, evaluates its
performance, and demonstrates its usability through its Web interface,
command-line interface, and Python API.Summary
AI-Generated Summary