Hoe je je LLM kunt laten uitdagende problemen genereren voor evaluatie

Samenvatting

Het tempo van de evolutie van Large Language Models (LLM's) vereist nieuwe benaderingen voor rigoureuze en uitgebreide evaluatie. Traditionele menselijke annotatie wordt steeds onpraktischer vanwege de complexiteit en kosten die gepaard gaan met het genereren van hoogwaardige, uitdagende problemen. In dit werk introduceren we CHASE, een uniform raamwerk om synthetisch uitdagende problemen te genereren met behulp van LLM's zonder menselijke betrokkenheid. Voor een gegeven taak bouwt onze aanpak een moeilijk probleem op een bottom-up manier op uit eenvoudigere componenten. Bovendien deelt ons raamwerk het generatieproces op in onafhankelijk verifieerbare sub-taken, waardoor een hoog niveau van kwaliteit en correctheid wordt gewaarborgd. We implementeren CHASE om evaluatiebenchmarks te creëren in drie diverse domeinen: (1) documentgebaseerde vraagbeantwoording, (2) repository-level codecompletering, en (3) wiskundig redeneren. De prestaties van state-of-the-art LLM's op deze synthetische benchmarks liggen in het bereik van 40-60% nauwkeurigheid, wat de effectiviteit van ons raamwerk bij het genereren van uitdagende problemen aantoont. We maken onze benchmarks en code publiekelijk beschikbaar.

English

The pace of evolution of Large Language Models (LLMs) necessitates new approaches for rigorous and comprehensive evaluation. Traditional human annotation is increasingly impracticable due to the complexities and costs involved in generating high-quality, challenging problems. In this work, we introduce CHASE, a unified framework to synthetically generate challenging problems using LLMs without human involvement. For a given task, our approach builds a hard problem in a bottom-up manner from simpler components. Moreover, our framework decomposes the generation process into independently verifiable sub-tasks, thereby ensuring a high level of quality and correctness. We implement CHASE to create evaluation benchmarks across three diverse domains: (1) document-based question answering, (2) repository-level code completion, and (3) math reasoning. The performance of state-of-the-art LLMs on these synthetic benchmarks lies in the range of 40-60% accuracy, thereby demonstrating the effectiveness of our framework at generating challenging problems. We publicly release our benchmarks and code.

Hoe je je LLM kunt laten uitdagende problemen genereren voor evaluatie

How to Get Your LLM to Generate Challenging Problems for Evaluation

Samenvatting

Support