Autorater Fondamentali: Domare i Modelli Linguistici di Grande Scala per una Migliore Valutazione Automatica
Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation
July 15, 2024
Autori: Tu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung
cs.AI
Abstract
Man mano che i modelli linguistici di grandi dimensioni (LLM) progrediscono, diventa sempre più difficile valutare in modo affidabile il loro output a causa degli elevati costi della valutazione umana. Per fare progressi verso migliori autorater LLM, introduciamo FLAMe, una famiglia di Foundational Large Autorater Models. FLAMe è addestrato sulla nostra vasta e diversificata raccolta di oltre 100 task di valutazione della qualità, comprendente più di 5 milioni di giudizi umani, curati e standardizzati utilizzando valutazioni umane rilasciate pubblicamente da ricerche precedenti. FLAMe migliora significativamente la generalizzazione su una vasta gamma di task tenuti da parte, superando LLM addestrati su dati proprietari come GPT-4 e Claude-3 in molti task. Dimostriamo che FLAMe può anche servire come un potente punto di partenza per ulteriori ottimizzazioni downstream, utilizzando la valutazione del reward modeling come caso di studio (FLAMe-RM). In particolare, su RewardBench, il nostro modello FLAMe-RM-24B (con un'accuratezza dell'87,8%) è il modello generativo con le migliori prestazioni addestrato esclusivamente su dati con licenza permissiva, superando sia GPT-4-0125 (85,9%) che GPT-4o (84,7%). Inoltre, esploriamo un approccio più efficiente dal punto di vista computazionale utilizzando una nuova strategia di fine-tuning tail-patch per ottimizzare la nostra miscela multitask FLAMe per la valutazione del reward modeling (FLAMe-Opt-RM), offrendo prestazioni competitive su RewardBench pur richiedendo circa 25 volte meno punti di addestramento. Nel complesso, le nostre varianti FLAMe superano tutti i popolari modelli LLM-as-a-Judge proprietari che consideriamo in 8 su 12 benchmark di valutazione autorater, comprendenti 53 task di valutazione della qualità, inclusi RewardBench e LLM-AggreFact. Infine, la nostra analisi rivela che FLAMe è significativamente meno distorto rispetto a questi modelli LLM-as-a-Judge sul benchmark di bias autorater CoBBLEr, identificando efficacemente risposte di alta qualità per la generazione di codice.
English
As large language models (LLMs) advance, it becomes more challenging to
reliably evaluate their output due to the high costs of human evaluation. To
make progress towards better LLM autoraters, we introduce FLAMe, a family of
Foundational Large Autorater Models. FLAMe is trained on our large and diverse
collection of 100+ quality assessment tasks comprising 5M+ human judgments,
curated and standardized using publicly released human evaluations from
previous research. FLAMe significantly improves generalization to a wide
variety of held-out tasks, outperforming LLMs trained on proprietary data like
GPT-4 and Claude-3 on many tasks. We show that FLAMe can also serve as a
powerful starting point for further downstream fine-tuning, using reward
modeling evaluation as a case study (FLAMe-RM). Notably, on RewardBench, our
FLAMe-RM-24B model (with an accuracy of 87.8%) is the top-performing generative
model trained exclusively on permissively licensed data, outperforming both
GPT-4-0125 (85.9%) and GPT-4o (84.7%). Additionally, we explore a more
computationally efficient approach using a novel tail-patch fine-tuning
strategy to optimize our FLAMe multitask mixture for reward modeling evaluation
(FLAMe-Opt-RM), offering competitive RewardBench performance while requiring
approximately 25x less training datapoints. Overall, our FLAMe variants
outperform all popular proprietary LLM-as-a-Judge models we consider across 8
out of 12 autorater evaluation benchmarks, encompassing 53 quality assessment
tasks, including RewardBench and LLM-AggreFact. Finally, our analysis reveals
that FLAMe is significantly less biased than these LLM-as-a-Judge models on the
CoBBLEr autorater bias benchmark, while effectively identifying high-quality
responses for code generation.