Avaliadores Fundamentais: Domando Modelos de Linguagem Grandes para uma Melhor Avaliação Automática

Resumo

À medida que os modelos de linguagem de grande escala (LLMs) avançam, torna-se mais desafiador avaliar de forma confiável suas saídas devido aos altos custos da avaliação humana. Para avançar em direção a melhores autorretratadores de LLM, apresentamos o FLAMe, uma família de Modelos Autorretratores de Grande Escala Fundamentais. O FLAMe é treinado em nossa extensa e diversificada coleção de mais de 100 tarefas de avaliação de qualidade, compreendendo mais de 5 milhões de julgamentos humanos, selecionados e padronizados utilizando avaliações humanas publicamente divulgadas de pesquisas anteriores. O FLAMe melhora significativamente a generalização para uma ampla variedade de tarefas não vistas, superando os LLMs treinados em dados proprietários como o GPT-4 e o Claude-3 em muitas tarefas. Mostramos que o FLAMe também pode servir como um ponto de partida poderoso para futuros ajustes finos, utilizando a avaliação de modelagem de recompensa como estudo de caso (FLAMe-RM). Notavelmente, no RewardBench, nosso modelo FLAMe-RM-24B (com uma precisão de 87,8%) é o modelo generativo de melhor desempenho treinado exclusivamente em dados licenciados de forma permissiva, superando tanto o GPT-4-0125 (85,9%) quanto o GPT-4o (84,7%). Além disso, exploramos uma abordagem mais eficiente computacionalmente utilizando uma estratégia de ajuste fino de patch de cauda para otimizar nossa mistura multitarefa FLAMe para avaliação de modelagem de recompensa (FLAMe-Opt-RM), oferecendo desempenho competitivo no RewardBench enquanto requer aproximadamente 25 vezes menos pontos de dados de treinamento. No geral, nossas variantes do FLAMe superam todos os populares modelos proprietários de LLM-como-Juíz que consideramos em 8 de 12 benchmarks de avaliação de autorretratadores, abrangendo 53 tarefas de avaliação de qualidade, incluindo RewardBench e LLM-AggreFact. Por fim, nossa análise revela que o FLAMe é significativamente menos tendencioso do que esses modelos de LLM-como-Juíz no benchmark de viés de autorretratador CoBBLEr, enquanto identifica efetivamente respostas de alta qualidade para geração de código.

English

As large language models (LLMs) advance, it becomes more challenging to reliably evaluate their output due to the high costs of human evaluation. To make progress towards better LLM autoraters, we introduce FLAMe, a family of Foundational Large Autorater Models. FLAMe is trained on our large and diverse collection of 100+ quality assessment tasks comprising 5M+ human judgments, curated and standardized using publicly released human evaluations from previous research. FLAMe significantly improves generalization to a wide variety of held-out tasks, outperforming LLMs trained on proprietary data like GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a powerful starting point for further downstream fine-tuning, using reward modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative model trained exclusively on permissively licensed data, outperforming both GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more computationally efficient approach using a novel tail-patch fine-tuning strategy to optimize our FLAMe multitask mixture for reward modeling evaluation (FLAMe-Opt-RM), offering competitive RewardBench performance while requiring approximately 25x less training datapoints. Overall, our FLAMe variants outperform all popular proprietary LLM-as-a-Judge models we consider across 8 out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals that FLAMe is significantly less biased than these LLM-as-a-Judge models on the CoBBLEr autorater bias benchmark, while effectively identifying high-quality responses for code generation.

Avaliadores Fundamentais: Domando Modelos de Linguagem Grandes para uma Melhor Avaliação Automática

Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

Resumo

Support