ChatPaper.aiChatPaper

Fundamentele Autoraters: Grote Taalmodellen Temmen voor Betere Automatische Evaluatie

Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

July 15, 2024
Auteurs: Tu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung
cs.AI

Samenvatting

Naarmate grote taalmmodellen (LLMs) zich verder ontwikkelen, wordt het steeds uitdagender om hun uitvoer betrouwbaar te evalueren vanwege de hoge kosten van menselijke evaluatie. Om vooruitgang te boeken naar betere LLM-autoraters, introduceren we FLAMe, een familie van Foundational Large Autorater Models. FLAMe is getraind op onze grote en diverse verzameling van 100+ kwaliteitsbeoordelingstaken, bestaande uit meer dan 5 miljoen menselijke oordelen, die zijn samengesteld en gestandaardiseerd met behulp van openbaar vrijgegeven menselijke evaluaties uit eerder onderzoek. FLAMe verbetert de generalisatie aanzienlijk naar een breed scala aan achtergehouden taken en presteert beter dan LLMs die zijn getraind op propriëtaire data, zoals GPT-4 en Claude-3, bij veel taken. We laten zien dat FLAMe ook kan dienen als een krachtig uitgangspunt voor verdere downstream fine-tuning, waarbij we reward modeling evaluatie als casestudy gebruiken (FLAMe-RM). Opvallend is dat op RewardBench ons FLAMe-RM-24B-model (met een nauwkeurigheid van 87,8%) het best presterende generatieve model is dat uitsluitend is getraind op permissief gelicenseerde data, en zowel GPT-4-0125 (85,9%) als GPT-4o (84,7%) overtreft. Daarnaast verkennen we een rekenkundig efficiëntere aanpak met behulp van een nieuwe tail-patch fine-tuning strategie om onze FLAMe multitask-mix te optimaliseren voor reward modeling evaluatie (FLAMe-Opt-RM), wat een competitieve RewardBench-prestatie biedt terwijl ongeveer 25x minder trainingsdatapunten nodig zijn. Over het algemeen overtreffen onze FLAMe-varianten alle populaire propriëtaire LLM-as-a-Judge-modellen die we beschouwen op 8 van de 12 autorater-evaluatiebenchmarks, die 53 kwaliteitsbeoordelingstaken omvatten, waaronder RewardBench en LLM-AggreFact. Ten slotte laat onze analyse zien dat FLAMe aanzienlijk minder bevooroordeeld is dan deze LLM-as-a-Judge-modellen op de CoBBLEr autorater bias benchmark, terwijl het effectief hoogwaardige antwoorden identificeert voor codegeneratie.
English
As large language models (LLMs) advance, it becomes more challenging to reliably evaluate their output due to the high costs of human evaluation. To make progress towards better LLM autoraters, we introduce FLAMe, a family of Foundational Large Autorater Models. FLAMe is trained on our large and diverse collection of 100+ quality assessment tasks comprising 5M+ human judgments, curated and standardized using publicly released human evaluations from previous research. FLAMe significantly improves generalization to a wide variety of held-out tasks, outperforming LLMs trained on proprietary data like GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a powerful starting point for further downstream fine-tuning, using reward modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative model trained exclusively on permissively licensed data, outperforming both GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more computationally efficient approach using a novel tail-patch fine-tuning strategy to optimize our FLAMe multitask mixture for reward modeling evaluation (FLAMe-Opt-RM), offering competitive RewardBench performance while requiring approximately 25x less training datapoints. Overall, our FLAMe variants outperform all popular proprietary LLM-as-a-Judge models we consider across 8 out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals that FLAMe is significantly less biased than these LLM-as-a-Judge models on the CoBBLEr autorater bias benchmark, while effectively identifying high-quality responses for code generation.
PDF158February 8, 2026