Grundlegende Autorater: Die Bändigung großer Sprachmodelle für eine bessere automatische Bewertung

Zusammenfassung

Mit dem Fortschreiten großer Sprachmodelle (LLMs) wird es zunehmend herausfordernder, ihre Ausgaben zuverlässig zu bewerten, aufgrund der hohen Kosten für menschliche Bewertungen. Um Fortschritte in Richtung besserer LLM-Autorater zu erzielen, stellen wir FLAMe vor, eine Familie von Grundlegenden Großen Autorater-Modellen. FLAMe wird auf unserer großen und vielfältigen Sammlung von über 100 Qualitätsbewertungsaufgaben trainiert, die mehr als 5 Millionen menschliche Bewertungen umfassen, kuratiert und standardisiert unter Verwendung öffentlich freigegebener menschlicher Bewertungen aus früheren Forschungsarbeiten. FLAMe verbessert signifikant die Verallgemeinerung auf eine Vielzahl von zurückgehaltenen Aufgaben und übertrifft LLMs, die auf proprietären Daten wie GPT-4 und Claude-3 trainiert wurden, in vielen Aufgaben. Wir zeigen, dass FLAMe auch als leistungsstarker Ausgangspunkt für weiteres Feintuning dienen kann, unter Verwendung der Bewertung durch Reward-Modellierung als Fallstudie (FLAMe-RM). Bemerkenswert ist, dass unser FLAMe-RM-24B-Modell auf RewardBench (mit einer Genauigkeit von 87,8%) das leistungsstärkste generative Modell ist, das ausschließlich auf großzügig lizenzierten Daten trainiert wurde, und sowohl GPT-4-0125 (85,9%) als auch GPT-4o (84,7%) übertrifft. Darüber hinaus untersuchen wir einen effizienteren Ansatz unter Verwendung einer neuartigen Feintuning-Strategie für Schwanz-Patches zur Optimierung unserer FLAMe-Multitask-Mischung für die Bewertung durch Reward-Modellierung (FLAMe-Opt-RM), wodurch eine wettbewerbsfähige Leistung auf RewardBench erzielt wird, während etwa 25-mal weniger Trainingsdatenpunkte erforderlich sind. Insgesamt übertrifft unsere FLAMe-Varianten alle beliebten proprietären LLM-als-Richter-Modelle, die wir in Betracht ziehen, in 8 von 12 Autorater-Evaluierungsbewertungen, die 53 Qualitätsbewertungsaufgaben umfassen, einschließlich RewardBench und LLM-AggreFact. Schließlich zeigt unsere Analyse, dass FLAMe auf dem CoBBLEr-Autorater-Bias-Benchmark signifikant weniger voreingenommen ist als diese LLM-als-Richter-Modelle, während es hochwertige Antworten für die Codegenerierung effektiv identifiziert.

English

As large language models (LLMs) advance, it becomes more challenging to reliably evaluate their output due to the high costs of human evaluation. To make progress towards better LLM autoraters, we introduce FLAMe, a family of Foundational Large Autorater Models. FLAMe is trained on our large and diverse collection of 100+ quality assessment tasks comprising 5M+ human judgments, curated and standardized using publicly released human evaluations from previous research. FLAMe significantly improves generalization to a wide variety of held-out tasks, outperforming LLMs trained on proprietary data like GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a powerful starting point for further downstream fine-tuning, using reward modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative model trained exclusively on permissively licensed data, outperforming both GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more computationally efficient approach using a novel tail-patch fine-tuning strategy to optimize our FLAMe multitask mixture for reward modeling evaluation (FLAMe-Opt-RM), offering competitive RewardBench performance while requiring approximately 25x less training datapoints. Overall, our FLAMe variants outperform all popular proprietary LLM-as-a-Judge models we consider across 8 out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals that FLAMe is significantly less biased than these LLM-as-a-Judge models on the CoBBLEr autorater bias benchmark, while effectively identifying high-quality responses for code generation.

Grundlegende Autorater: Die Bändigung großer Sprachmodelle für eine bessere automatische Bewertung

Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

Zusammenfassung

Support