Substituindo Juízes por Júris: Avaliando Gerações de LLMs com um Painel de Modelos Diversos
Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models
April 29, 2024
Autores: Pat Verga, Sebastian Hofstatter, Sophia Althammer, Yixuan Su, Aleksandra Piktus, Arkady Arkhangorodsky, Minjie Xu, Naomi White, Patrick Lewis
cs.AI
Resumo
À medida que os Modelos de Linguagem de Grande Escala (LLMs) se tornaram mais avançados, eles superaram nossa capacidade de avaliar com precisão sua qualidade. Não apenas é difícil encontrar dados para investigar adequadamente propriedades específicas do modelo, mas avaliar a correção de uma geração livre do modelo por si só já é um desafio. Para resolver isso, muitas avaliações agora dependem do uso dos próprios LLMs como juízes para pontuar a qualidade das saídas de outros LLMs. As avaliações mais comumente usam um único modelo grande, como o GPT-4. Embora esse método tenha ganhado popularidade, ele é custoso, demonstrou introduzir viés intramodelo e, neste trabalho, descobrimos que modelos muito grandes muitas vezes são desnecessários. Propomos, em vez disso, avaliar os modelos usando um Painel de Avaliadores LLM (PoLL). Em três configurações distintas de juízes e abrangendo seis conjuntos de dados diferentes, descobrimos que usar um PoLL composto por um número maior de modelos menores supera um único juiz grande, exibe menos viés intramodelo devido à sua composição de famílias de modelos distintas e faz isso enquanto é mais de sete vezes menos custoso.
English
As Large Language Models (LLMs) have become more advanced, they have outpaced
our abilities to accurately evaluate their quality. Not only is finding data to
adequately probe particular model properties difficult, but evaluating the
correctness of a model's freeform generation alone is a challenge. To address
this, many evaluations now rely on using LLMs themselves as judges to score the
quality of outputs from other LLMs. Evaluations most commonly use a single
large model like GPT4. While this method has grown in popularity, it is costly,
has been shown to introduce intramodel bias, and in this work, we find that
very large models are often unnecessary. We propose instead to evaluate models
using a Panel of LLm evaluators (PoLL). Across three distinct judge settings
and spanning six different datasets, we find that using a PoLL composed of a
larger number of smaller models outperforms a single large judge, exhibits less
intra-model bias due to its composition of disjoint model families, and does so
while being over seven times less expensive.