Évaluateurs Automatiques Fondamentaux : Dompter les Grands Modèles de Langage pour une Meilleure Évaluation Automatique
Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation
July 15, 2024
Auteurs: Tu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung
cs.AI
Résumé
Alors que les modèles de langage de grande taille (LLMs) progressent, il devient plus difficile d'évaluer de manière fiable leur production en raison des coûts élevés de l'évaluation humaine. Pour faire avancer la recherche vers de meilleurs auto-évaluateurs de LLMs, nous présentons FLAMe, une famille de modèles fondamentaux d'auto-évaluation de grande taille. FLAMe est entraîné sur notre vaste et diversifiée collection de plus de 100 tâches d'évaluation de qualité, comprenant plus de 5 millions de jugements humains, soigneusement sélectionnés et standardisés à partir d'évaluations humaines publiées dans des recherches antérieures. FLAMe améliore significativement la généralisation à une grande variété de tâches réservées, surpassant les LLMs entraînés sur des données propriétaires comme GPT-4 et Claude-3 sur de nombreuses tâches. Nous montrons que FLAMe peut également servir de point de départ puissant pour un affinage ultérieur en aval, en utilisant l'évaluation de modélisation de récompense comme étude de cas (FLAMe-RM). Notamment, sur RewardBench, notre modèle FLAMe-RM-24B (avec une précision de 87,8%) est le modèle génératif le plus performant entraîné exclusivement sur des données sous licence permissive, surpassant à la fois GPT-4-0125 (85,9%) et GPT-4o (84,7%). De plus, nous explorons une approche plus efficace sur le plan informatique en utilisant une nouvelle stratégie d'affinage par patch de queue pour optimiser notre mélange multitâche FLAMe pour l'évaluation de modélisation de récompense (FLAMe-Opt-RM), offrant des performances compétitives sur RewardBench tout en nécessitant environ 25 fois moins de points de données d'entraînement. Globalement, nos variantes de FLAMe surpassent tous les modèles LLM-as-a-Judge propriétaires populaires que nous considérons sur 8 des 12 benchmarks d'évaluation d'auto-évaluateurs, englobant 53 tâches d'évaluation de qualité, y compris RewardBench et LLM-AggreFact. Enfin, notre analyse révèle que FLAMe est significativement moins biaisé que ces modèles LLM-as-a-Judge sur le benchmark de biais d'auto-évaluateur CoBBLEr, tout en identifiant efficacement les réponses de haute qualité pour la génération de code.
English
As large language models (LLMs) advance, it becomes more challenging to
reliably evaluate their output due to the high costs of human evaluation. To
make progress towards better LLM autoraters, we introduce FLAMe, a family of
Foundational Large Autorater Models. FLAMe is trained on our large and diverse
collection of 100+ quality assessment tasks comprising 5M+ human judgments,
curated and standardized using publicly released human evaluations from
previous research. FLAMe significantly improves generalization to a wide
variety of held-out tasks, outperforming LLMs trained on proprietary data like
GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a
powerful starting point for further downstream fine-tuning, using reward
modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our
FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative
model trained exclusively on permissively licensed data, outperforming both
GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more
computationally efficient approach using a novel tail-patch fine-tuning
strategy to optimize our FLAMe multitask mixture for reward modeling evaluation
(FLAMe-Opt-RM), offering competitive RewardBench performance while requiring
approximately 25x less training datapoints. Overall, our FLAMe variants
outperform all popular proprietary LLM-as-a-Judge models we consider across 8
out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment
tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals
that FLAMe is significantly less biased than these LLM-as-a-Judge models on the
CoBBLEr autorater bias benchmark, while effectively identifying high-quality
responses for code generation.Summary
AI-Generated Summary