L'Arena dell'Energia Generativa (GEA): Integrare la Consapevolezza Energetica nelle Valutazioni Umane dei Modelli Linguistici di Grande Dimensione (LLM)
The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations
July 17, 2025
Autori: Carlos Arriaga, Gonzalo Martínez, Eneko Sendin, Javier Conde, Pedro Reviriego
cs.AI
Abstract
La valutazione dei grandi modelli linguistici è un compito complesso, per il quale sono state proposte diverse metodologie. L'approccio più comune è l'utilizzo di benchmark automatizzati in cui i modelli linguistici devono rispondere a domande a scelta multipla su vari argomenti. Tuttavia, questo metodo presenta alcune limitazioni, tra cui la più preoccupante è la scarsa correlazione con le valutazioni umane. Un approccio alternativo consiste nel far valutare i modelli direttamente dagli esseri umani. Ciò solleva però problemi di scalabilità, dato il numero elevato e crescente di modelli da valutare, rendendo impraticabile (e costoso) condurre studi tradizionali basati sul reclutamento di valutatori e sulla classificazione delle risposte dei modelli. Un'altra soluzione è l'uso di arene pubbliche, come la popolare LM Arena, in cui qualsiasi utente può liberamente valutare i modelli su qualsiasi domanda e confrontare le risposte di due modelli. I risultati vengono poi elaborati per creare una classifica dei modelli. Un aspetto sempre più importante dei grandi modelli linguistici è il loro consumo energetico, e quindi valutare come la consapevolezza energetica influenzi le decisioni degli utenti nella scelta di un modello è di grande interesse. In questo articolo presentiamo GEA, la Generative Energy Arena, un'arena che incorpora informazioni sul consumo energetico dei modelli nel processo di valutazione. Vengono inoltre presentati i risultati preliminari ottenuti con GEA, che mostrano come, per la maggior parte delle domande, quando gli utenti sono consapevoli del consumo energetico, preferiscono modelli più piccoli ed efficienti dal punto di vista energetico. Ciò suggerisce che, per la maggior parte delle interazioni utente, il costo e l'energia aggiuntivi richiesti dai modelli più complessi e performanti non garantiscono un aumento della qualità percepita delle risposte che giustifichi il loro utilizzo.
English
The evaluation of large language models is a complex task, in which several
approaches have been proposed. The most common is the use of automated
benchmarks in which LLMs have to answer multiple-choice questions of different
topics. However, this method has certain limitations, being the most
concerning, the poor correlation with the humans. An alternative approach, is
to have humans evaluate the LLMs. This poses scalability issues as there is a
large and growing number of models to evaluate making it impractical (and
costly) to run traditional studies based on recruiting a number of evaluators
and having them rank the responses of the models. An alternative approach is
the use of public arenas, such as the popular LM arena, on which any user can
freely evaluate models on any question and rank the responses of two models.
The results are then elaborated into a model ranking. An increasingly important
aspect of LLMs is their energy consumption and, therefore, evaluating how
energy awareness influences the decisions of humans in selecting a model is of
interest. In this paper, we present GEA, the Generative Energy Arena, an arena
that incorporates information on the energy consumption of the model in the
evaluation process. Preliminary results obtained with GEA are also presented,
showing that for most questions, when users are aware of the energy
consumption, they favor smaller and more energy efficient models. This suggests
that for most user interactions, the extra cost and energy incurred by the more
complex and top-performing models do not provide an increase in the perceived
quality of the responses that justifies their use.