Hoe je je LLM kunt laten uitdagende problemen genereren voor evaluatie
How to Get Your LLM to Generate Challenging Problems for Evaluation
February 20, 2025
Auteurs: Arkil Patel, Siva Reddy, Dzmitry Bahdanau
cs.AI
Samenvatting
Het tempo van de evolutie van Large Language Models (LLM's) vereist nieuwe benaderingen voor rigoureuze en uitgebreide evaluatie. Traditionele menselijke annotatie wordt steeds onpraktischer vanwege de complexiteit en kosten die gepaard gaan met het genereren van hoogwaardige, uitdagende problemen. In dit werk introduceren we CHASE, een uniform raamwerk om synthetisch uitdagende problemen te genereren met behulp van LLM's zonder menselijke betrokkenheid. Voor een gegeven taak bouwt onze aanpak een moeilijk probleem op een bottom-up manier op uit eenvoudigere componenten. Bovendien deelt ons raamwerk het generatieproces op in onafhankelijk verifieerbare sub-taken, waardoor een hoog niveau van kwaliteit en correctheid wordt gewaarborgd. We implementeren CHASE om evaluatiebenchmarks te creëren in drie diverse domeinen: (1) documentgebaseerde vraagbeantwoording, (2) repository-level codecompletering, en (3) wiskundig redeneren. De prestaties van state-of-the-art LLM's op deze synthetische benchmarks liggen in het bereik van 40-60% nauwkeurigheid, wat de effectiviteit van ons raamwerk bij het genereren van uitdagende problemen aantoont. We maken onze benchmarks en code publiekelijk beschikbaar.
English
The pace of evolution of Large Language Models (LLMs) necessitates new
approaches for rigorous and comprehensive evaluation. Traditional human
annotation is increasingly impracticable due to the complexities and costs
involved in generating high-quality, challenging problems. In this work, we
introduce CHASE, a unified framework to synthetically generate challenging
problems using LLMs without human involvement. For a given task, our approach
builds a hard problem in a bottom-up manner from simpler components. Moreover,
our framework decomposes the generation process into independently verifiable
sub-tasks, thereby ensuring a high level of quality and correctness. We
implement CHASE to create evaluation benchmarks across three diverse domains:
(1) document-based question answering, (2) repository-level code completion,
and (3) math reasoning. The performance of state-of-the-art LLMs on these
synthetic benchmarks lies in the range of 40-60% accuracy, thereby
demonstrating the effectiveness of our framework at generating challenging
problems. We publicly release our benchmarks and code.Summary
AI-Generated Summary