ChatPaper.aiChatPaper

Надежные, воспроизводимые и действительно быстрые таблицы лидеров с помощью Evalica.

Reliable, Reproducible, and Really Fast Leaderboards with Evalica

December 15, 2024
Авторы: Dmitry Ustalov
cs.AI

Аннотация

Быстрое развитие технологий обработки естественного языка (NLP), таких как настроенные на инструкции большие языковые модели (LLM), требует разработки современных протоколов оценки с обратной связью от людей и машин. Мы представляем Evalica, набор инструментов с открытым исходным кодом, который облегчает создание надежных и воспроизводимых рейтингов моделей. В данной статье представлен ее дизайн, оценена производительность и продемонстрирована ее применимость через веб-интерфейс, интерфейс командной строки и Python API.
English
The rapid advancement of natural language processing (NLP) technologies, such as instruction-tuned large language models (LLMs), urges the development of modern evaluation protocols with human and machine feedback. We introduce Evalica, an open-source toolkit that facilitates the creation of reliable and reproducible model leaderboards. This paper presents its design, evaluates its performance, and demonstrates its usability through its Web interface, command-line interface, and Python API.

Summary

AI-Generated Summary

PDF22December 17, 2024