Wie Sie Ihr LLM dazu bringen, anspruchsvolle Probleme zur Bewertung zu generieren
How to Get Your LLM to Generate Challenging Problems for Evaluation
February 20, 2025
Autoren: Arkil Patel, Siva Reddy, Dzmitry Bahdanau
cs.AI
Zusammenfassung
Das Tempo der Entwicklung von Large Language Models (LLMs) erfordert neue Ansätze für eine rigorose und umfassende Evaluierung. Traditionelle menschliche Annotation wird zunehmend unpraktikabel, da die Komplexität und die Kosten für die Erstellung hochwertiger, anspruchsvoller Probleme zu hoch sind. In dieser Arbeit stellen wir CHASE vor, ein einheitliches Framework zur synthetischen Generierung anspruchsvoller Probleme mithilfe von LLMs ohne menschliches Zutun. Für eine gegebene Aufgabe konstruiert unser Ansatz ein schwieriges Problem in einer Bottom-up-Methode aus einfacheren Komponenten. Darüber hinaus zerlegt unser Framework den Generierungsprozess in unabhängig überprüfbare Teilaufgaben, wodurch ein hohes Maß an Qualität und Korrektheit sichergestellt wird. Wir implementieren CHASE, um Evaluierungs-Benchmarks in drei verschiedenen Domänen zu erstellen: (1) dokumentbasierte Fragebeantwortung, (2) Repository-Level-Code-Vervollständigung und (3) mathematisches Denken. Die Leistung modernster LLMs auf diesen synthetischen Benchmarks liegt im Bereich von 40-60% Genauigkeit, was die Effektivität unseres Frameworks bei der Generierung anspruchsvoller Probleme demonstriert. Wir veröffentlichen unsere Benchmarks und den Code öffentlich.
English
The pace of evolution of Large Language Models (LLMs) necessitates new
approaches for rigorous and comprehensive evaluation. Traditional human
annotation is increasingly impracticable due to the complexities and costs
involved in generating high-quality, challenging problems. In this work, we
introduce CHASE, a unified framework to synthetically generate challenging
problems using LLMs without human involvement. For a given task, our approach
builds a hard problem in a bottom-up manner from simpler components. Moreover,
our framework decomposes the generation process into independently verifiable
sub-tasks, thereby ensuring a high level of quality and correctness. We
implement CHASE to create evaluation benchmarks across three diverse domains:
(1) document-based question answering, (2) repository-level code completion,
and (3) math reasoning. The performance of state-of-the-art LLMs on these
synthetic benchmarks lies in the range of 40-60% accuracy, thereby
demonstrating the effectiveness of our framework at generating challenging
problems. We publicly release our benchmarks and code.Summary
AI-Generated Summary