Генеративная Энергетическая Арена (GEA): Включение энергетической осведомленности в человеческую оценку крупных языковых моделей (LLM)
The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations
July 17, 2025
Авторы: Carlos Arriaga, Gonzalo Martínez, Eneko Sendin, Javier Conde, Pedro Reviriego
cs.AI
Аннотация
Оценка больших языковых моделей представляет собой сложную задачу, для решения которой было предложено несколько подходов. Наиболее распространенным является использование автоматизированных бенчмарков, в которых языковые модели должны отвечать на вопросы с множественным выбором по различным темам. Однако этот метод имеет определенные ограничения, главным из которых является слабая корреляция с человеческими оценками. Альтернативный подход заключается в привлечении людей для оценки языковых моделей. Это создает проблемы с масштабируемостью, поскольку количество моделей, которые необходимо оценить, велико и продолжает расти, что делает традиционные исследования, основанные на привлечении группы оценщиков и ранжировании их ответов, непрактичными (и дорогостоящими). Еще один подход — использование публичных арен, таких как популярная LM Arena, где любой пользователь может свободно оценивать модели по любому вопросу и сравнивать ответы двух моделей. Результаты затем обрабатываются для создания рейтинга моделей. Все более важным аспектом языковых моделей становится их энергопотребление, и поэтому интерес представляет изучение того, как осведомленность об энергопотреблении влияет на выбор модели человеком. В данной статье мы представляем GEA, Generative Energy Arena — арену, которая включает информацию об энергопотреблении модели в процесс оценки. Также представлены предварительные результаты, полученные с помощью GEA, которые показывают, что для большинства вопросов, когда пользователи осведомлены об энергопотреблении, они отдают предпочтение более компактным и энергоэффективным моделям. Это свидетельствует о том, что для большинства взаимодействий пользователей дополнительные затраты и энергопотребление, связанные с более сложными и высокопроизводительными моделями, не обеспечивают повышения воспринимаемого качества ответов, которое оправдывало бы их использование.
English
The evaluation of large language models is a complex task, in which several
approaches have been proposed. The most common is the use of automated
benchmarks in which LLMs have to answer multiple-choice questions of different
topics. However, this method has certain limitations, being the most
concerning, the poor correlation with the humans. An alternative approach, is
to have humans evaluate the LLMs. This poses scalability issues as there is a
large and growing number of models to evaluate making it impractical (and
costly) to run traditional studies based on recruiting a number of evaluators
and having them rank the responses of the models. An alternative approach is
the use of public arenas, such as the popular LM arena, on which any user can
freely evaluate models on any question and rank the responses of two models.
The results are then elaborated into a model ranking. An increasingly important
aspect of LLMs is their energy consumption and, therefore, evaluating how
energy awareness influences the decisions of humans in selecting a model is of
interest. In this paper, we present GEA, the Generative Energy Arena, an arena
that incorporates information on the energy consumption of the model in the
evaluation process. Preliminary results obtained with GEA are also presented,
showing that for most questions, when users are aware of the energy
consumption, they favor smaller and more energy efficient models. This suggests
that for most user interactions, the extra cost and energy incurred by the more
complex and top-performing models do not provide an increase in the perceived
quality of the responses that justifies their use.