ChatPaper.aiChatPaper

JudgeLM: Gefinetunede grote taalmodellen zijn schaalbare beoordelaars

JudgeLM: Fine-tuned Large Language Models are Scalable Judges

October 26, 2023
Auteurs: Lianghui Zhu, Xinggang Wang, Xinlong Wang
cs.AI

Samenvatting

Het evalueren van Large Language Models (LLMs) in open-eind scenario's is uitdagend omdat bestaande benchmarks en metrieken ze niet uitgebreid kunnen meten. Om dit probleem aan te pakken, stellen we voor om LLMs te fine-tunen als schaalbare beoordelaars (JudgeLM) om LLMs efficiënt en effectief te evalueren in open-eind benchmarks. We stellen eerst een uitgebreide, grootschalige, hoogwaardige dataset voor die taakzaden, door LLMs gegenereerde antwoorden en door GPT-4 gegenereerde oordelen bevat voor het fine-tunen van hoogpresterende beoordelaars, evenals een nieuwe benchmark voor het evalueren van de beoordelaars. We trainen JudgeLM op verschillende schalen van 7B, 13B tot 33B parameters en voeren een systematische analyse uit van zijn capaciteiten en gedragingen. Vervolgens analyseren we de belangrijkste biases bij het fine-tunen van een LLM als beoordelaar en beschouwen deze als positiebias, kennisbias en formaatbias. Om deze problemen aan te pakken, introduceert JudgeLM een reeks technieken, waaronder swap-augmentatie, referentieondersteuning en referentieverwijdering, die de prestaties van de beoordelaar duidelijk verbeteren. JudgeLM behaalt de state-of-the-art beoordelaarsprestaties op zowel de bestaande PandaLM-benchmark als onze voorgestelde nieuwe benchmark. Onze JudgeLM is efficiënt en de JudgeLM-7B heeft slechts 3 minuten nodig om 5K samples te beoordelen met 8 A100 GPU's. JudgeLM bereikt een hoge overeenstemming met de leraar-beoordelaar, met een overeenstemming van meer dan 90% die zelfs de mens-tot-mens overeenstemming overtreft. JudgeLM toont ook uitgebreide capaciteiten in het beoordelen van enkelvoudige antwoorden, multimodale modellen, meerdere antwoorden en multi-turn chat.
English
Evaluating Large Language Models (LLMs) in open-ended scenarios is challenging because existing benchmarks and metrics can not measure them comprehensively. To address this problem, we propose to fine-tune LLMs as scalable judges (JudgeLM) to evaluate LLMs efficiently and effectively in open-ended benchmarks. We first propose a comprehensive, large-scale, high-quality dataset containing task seeds, LLMs-generated answers, and GPT-4-generated judgments for fine-tuning high-performance judges, as well as a new benchmark for evaluating the judges. We train JudgeLM at different scales from 7B, 13B, to 33B parameters, and conduct a systematic analysis of its capabilities and behaviors. We then analyze the key biases in fine-tuning LLM as a judge and consider them as position bias, knowledge bias, and format bias. To address these issues, JudgeLM introduces a bag of techniques including swap augmentation, reference support, and reference drop, which clearly enhance the judge's performance. JudgeLM obtains the state-of-the-art judge performance on both the existing PandaLM benchmark and our proposed new benchmark. Our JudgeLM is efficient and the JudgeLM-7B only needs 3 minutes to judge 5K samples with 8 A100 GPUs. JudgeLM obtains high agreement with the teacher judge, achieving an agreement exceeding 90% that even surpasses human-to-human agreement. JudgeLM also demonstrates extended capabilities in being judges of the single answer, multimodal models, multiple answers, and multi-turn chat.
PDF356February 7, 2026