A Arena de Energia Generativa (GEA): Incorporando Consciência Energética em Avaliações Humanas de Modelos de Linguagem de Grande Escala (LLMs)
The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations
July 17, 2025
Autores: Carlos Arriaga, Gonzalo Martínez, Eneko Sendin, Javier Conde, Pedro Reviriego
cs.AI
Resumo
A avaliação de modelos de linguagem de grande escala é uma tarefa complexa, na qual várias abordagens foram propostas. A mais comum é o uso de benchmarks automatizados, nos quais os LLMs precisam responder a perguntas de múltipla escolha sobre diferentes tópicos. No entanto, esse método apresenta certas limitações, sendo a mais preocupante a baixa correlação com os humanos. Uma abordagem alternativa é ter humanos avaliando os LLMs. Isso traz problemas de escalabilidade, já que há um número grande e crescente de modelos a serem avaliados, tornando impraticável (e custoso) realizar estudos tradicionais baseados no recrutamento de avaliadores e na classificação das respostas dos modelos. Uma abordagem alternativa é o uso de arenas públicas, como a popular LM arena, na qual qualquer usuário pode avaliar livremente modelos em qualquer pergunta e classificar as respostas de dois modelos. Os resultados são então elaborados em um ranking de modelos. Um aspecto cada vez mais importante dos LLMs é seu consumo de energia e, portanto, avaliar como a conscientização energética influencia as decisões dos humanos na seleção de um modelo é de interesse. Neste artigo, apresentamos a GEA, a Generative Energy Arena, uma arena que incorpora informações sobre o consumo de energia do modelo no processo de avaliação. Resultados preliminares obtidos com a GEA também são apresentados, mostrando que, para a maioria das perguntas, quando os usuários estão cientes do consumo de energia, eles favorecem modelos menores e mais eficientes em termos energéticos. Isso sugere que, para a maioria das interações dos usuários, o custo e a energia adicionais incorridos pelos modelos mais complexos e de alto desempenho não proporcionam um aumento na qualidade percebida das respostas que justifique seu uso.
English
The evaluation of large language models is a complex task, in which several
approaches have been proposed. The most common is the use of automated
benchmarks in which LLMs have to answer multiple-choice questions of different
topics. However, this method has certain limitations, being the most
concerning, the poor correlation with the humans. An alternative approach, is
to have humans evaluate the LLMs. This poses scalability issues as there is a
large and growing number of models to evaluate making it impractical (and
costly) to run traditional studies based on recruiting a number of evaluators
and having them rank the responses of the models. An alternative approach is
the use of public arenas, such as the popular LM arena, on which any user can
freely evaluate models on any question and rank the responses of two models.
The results are then elaborated into a model ranking. An increasingly important
aspect of LLMs is their energy consumption and, therefore, evaluating how
energy awareness influences the decisions of humans in selecting a model is of
interest. In this paper, we present GEA, the Generative Energy Arena, an arena
that incorporates information on the energy consumption of the model in the
evaluation process. Preliminary results obtained with GEA are also presented,
showing that for most questions, when users are aware of the energy
consumption, they favor smaller and more energy efficient models. This suggests
that for most user interactions, the extra cost and energy incurred by the more
complex and top-performing models do not provide an increase in the perceived
quality of the responses that justifies their use.