Grundlegende Autorater: Die Bändigung großer Sprachmodelle für eine bessere automatische Bewertung
Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation
July 15, 2024
Autoren: Tu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung
cs.AI
Zusammenfassung
Mit dem Fortschreiten großer Sprachmodelle (LLMs) wird es zunehmend herausfordernder, ihre Ausgaben zuverlässig zu bewerten, aufgrund der hohen Kosten für menschliche Bewertungen. Um Fortschritte in Richtung besserer LLM-Autorater zu erzielen, stellen wir FLAMe vor, eine Familie von Grundlegenden Großen Autorater-Modellen. FLAMe wird auf unserer großen und vielfältigen Sammlung von über 100 Qualitätsbewertungsaufgaben trainiert, die mehr als 5 Millionen menschliche Bewertungen umfassen, kuratiert und standardisiert unter Verwendung öffentlich freigegebener menschlicher Bewertungen aus früheren Forschungsarbeiten. FLAMe verbessert signifikant die Verallgemeinerung auf eine Vielzahl von zurückgehaltenen Aufgaben und übertrifft LLMs, die auf proprietären Daten wie GPT-4 und Claude-3 trainiert wurden, in vielen Aufgaben. Wir zeigen, dass FLAMe auch als leistungsstarker Ausgangspunkt für weiteres Feintuning dienen kann, unter Verwendung der Bewertung durch Reward-Modellierung als Fallstudie (FLAMe-RM). Bemerkenswert ist, dass unser FLAMe-RM-24B-Modell auf RewardBench (mit einer Genauigkeit von 87,8%) das leistungsstärkste generative Modell ist, das ausschließlich auf großzügig lizenzierten Daten trainiert wurde, und sowohl GPT-4-0125 (85,9%) als auch GPT-4o (84,7%) übertrifft. Darüber hinaus untersuchen wir einen effizienteren Ansatz unter Verwendung einer neuartigen Feintuning-Strategie für Schwanz-Patches zur Optimierung unserer FLAMe-Multitask-Mischung für die Bewertung durch Reward-Modellierung (FLAMe-Opt-RM), wodurch eine wettbewerbsfähige Leistung auf RewardBench erzielt wird, während etwa 25-mal weniger Trainingsdatenpunkte erforderlich sind. Insgesamt übertrifft unsere FLAMe-Varianten alle beliebten proprietären LLM-als-Richter-Modelle, die wir in Betracht ziehen, in 8 von 12 Autorater-Evaluierungsbewertungen, die 53 Qualitätsbewertungsaufgaben umfassen, einschließlich RewardBench und LLM-AggreFact. Schließlich zeigt unsere Analyse, dass FLAMe auf dem CoBBLEr-Autorater-Bias-Benchmark signifikant weniger voreingenommen ist als diese LLM-als-Richter-Modelle, während es hochwertige Antworten für die Codegenerierung effektiv identifiziert.
English
As large language models (LLMs) advance, it becomes more challenging to
reliably evaluate their output due to the high costs of human evaluation. To
make progress towards better LLM autoraters, we introduce FLAMe, a family of
Foundational Large Autorater Models. FLAMe is trained on our large and diverse
collection of 100+ quality assessment tasks comprising 5M+ human judgments,
curated and standardized using publicly released human evaluations from
previous research. FLAMe significantly improves generalization to a wide
variety of held-out tasks, outperforming LLMs trained on proprietary data like
GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a
powerful starting point for further downstream fine-tuning, using reward
modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our
FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative
model trained exclusively on permissively licensed data, outperforming both
GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more
computationally efficient approach using a novel tail-patch fine-tuning
strategy to optimize our FLAMe multitask mixture for reward modeling evaluation
(FLAMe-Opt-RM), offering competitive RewardBench performance while requiring
approximately 25x less training datapoints. Overall, our FLAMe variants
outperform all popular proprietary LLM-as-a-Judge models we consider across 8
out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment
tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals
that FLAMe is significantly less biased than these LLM-as-a-Judge models on the
CoBBLEr autorater bias benchmark, while effectively identifying high-quality
responses for code generation.Summary
AI-Generated Summary