Avaliadores Fundamentais: Domando Modelos de Linguagem Grandes para uma Melhor Avaliação Automática
Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation
July 15, 2024
Autores: Tu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala (LLMs) avançam, torna-se mais desafiador avaliar de forma confiável suas saídas devido aos altos custos da avaliação humana. Para avançar em direção a melhores autorretratadores de LLM, apresentamos o FLAMe, uma família de Modelos Autorretratores de Grande Escala Fundamentais. O FLAMe é treinado em nossa extensa e diversificada coleção de mais de 100 tarefas de avaliação de qualidade, compreendendo mais de 5 milhões de julgamentos humanos, selecionados e padronizados utilizando avaliações humanas publicamente divulgadas de pesquisas anteriores. O FLAMe melhora significativamente a generalização para uma ampla variedade de tarefas não vistas, superando os LLMs treinados em dados proprietários como o GPT-4 e o Claude-3 em muitas tarefas. Mostramos que o FLAMe também pode servir como um ponto de partida poderoso para futuros ajustes finos, utilizando a avaliação de modelagem de recompensa como estudo de caso (FLAMe-RM). Notavelmente, no RewardBench, nosso modelo FLAMe-RM-24B (com uma precisão de 87,8%) é o modelo generativo de melhor desempenho treinado exclusivamente em dados licenciados de forma permissiva, superando tanto o GPT-4-0125 (85,9%) quanto o GPT-4o (84,7%). Além disso, exploramos uma abordagem mais eficiente computacionalmente utilizando uma estratégia de ajuste fino de patch de cauda para otimizar nossa mistura multitarefa FLAMe para avaliação de modelagem de recompensa (FLAMe-Opt-RM), oferecendo desempenho competitivo no RewardBench enquanto requer aproximadamente 25 vezes menos pontos de dados de treinamento. No geral, nossas variantes do FLAMe superam todos os populares modelos proprietários de LLM-como-Juíz que consideramos em 8 de 12 benchmarks de avaliação de autorretratadores, abrangendo 53 tarefas de avaliação de qualidade, incluindo RewardBench e LLM-AggreFact. Por fim, nossa análise revela que o FLAMe é significativamente menos tendencioso do que esses modelos de LLM-como-Juíz no benchmark de viés de autorretratador CoBBLEr, enquanto identifica efetivamente respostas de alta qualidade para geração de código.
English
As large language models (LLMs) advance, it becomes more challenging to
reliably evaluate their output due to the high costs of human evaluation. To
make progress towards better LLM autoraters, we introduce FLAMe, a family of
Foundational Large Autorater Models. FLAMe is trained on our large and diverse
collection of 100+ quality assessment tasks comprising 5M+ human judgments,
curated and standardized using publicly released human evaluations from
previous research. FLAMe significantly improves generalization to a wide
variety of held-out tasks, outperforming LLMs trained on proprietary data like
GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a
powerful starting point for further downstream fine-tuning, using reward
modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our
FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative
model trained exclusively on permissively licensed data, outperforming both
GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more
computationally efficient approach using a novel tail-patch fine-tuning
strategy to optimize our FLAMe multitask mixture for reward modeling evaluation
(FLAMe-Opt-RM), offering competitive RewardBench performance while requiring
approximately 25x less training datapoints. Overall, our FLAMe variants
outperform all popular proprietary LLM-as-a-Judge models we consider across 8
out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment
tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals
that FLAMe is significantly less biased than these LLM-as-a-Judge models on the
CoBBLEr autorater bias benchmark, while effectively identifying high-quality
responses for code generation.