ChatPaper.aiChatPaper

Wie Sie Ihr LLM dazu bringen, anspruchsvolle Probleme zur Bewertung zu generieren

How to Get Your LLM to Generate Challenging Problems for Evaluation

February 20, 2025
Autoren: Arkil Patel, Siva Reddy, Dzmitry Bahdanau
cs.AI

Zusammenfassung

Das Tempo der Entwicklung von Large Language Models (LLMs) erfordert neue Ansätze für eine rigorose und umfassende Evaluierung. Traditionelle menschliche Annotation wird zunehmend unpraktikabel, da die Komplexität und die Kosten für die Erstellung hochwertiger, anspruchsvoller Probleme zu hoch sind. In dieser Arbeit stellen wir CHASE vor, ein einheitliches Framework zur synthetischen Generierung anspruchsvoller Probleme mithilfe von LLMs ohne menschliches Zutun. Für eine gegebene Aufgabe konstruiert unser Ansatz ein schwieriges Problem in einer Bottom-up-Methode aus einfacheren Komponenten. Darüber hinaus zerlegt unser Framework den Generierungsprozess in unabhängig überprüfbare Teilaufgaben, wodurch ein hohes Maß an Qualität und Korrektheit sichergestellt wird. Wir implementieren CHASE, um Evaluierungs-Benchmarks in drei verschiedenen Domänen zu erstellen: (1) dokumentbasierte Fragebeantwortung, (2) Repository-Level-Code-Vervollständigung und (3) mathematisches Denken. Die Leistung modernster LLMs auf diesen synthetischen Benchmarks liegt im Bereich von 40-60% Genauigkeit, was die Effektivität unseres Frameworks bei der Generierung anspruchsvoller Probleme demonstriert. Wir veröffentlichen unsere Benchmarks und den Code öffentlich.
English
The pace of evolution of Large Language Models (LLMs) necessitates new approaches for rigorous and comprehensive evaluation. Traditional human annotation is increasingly impracticable due to the complexities and costs involved in generating high-quality, challenging problems. In this work, we introduce CHASE, a unified framework to synthetically generate challenging problems using LLMs without human involvement. For a given task, our approach builds a hard problem in a bottom-up manner from simpler components. Moreover, our framework decomposes the generation process into independently verifiable sub-tasks, thereby ensuring a high level of quality and correctness. We implement CHASE to create evaluation benchmarks across three diverse domains: (1) document-based question answering, (2) repository-level code completion, and (3) math reasoning. The performance of state-of-the-art LLMs on these synthetic benchmarks lies in the range of 40-60% accuracy, thereby demonstrating the effectiveness of our framework at generating challenging problems. We publicly release our benchmarks and code.

Summary

AI-Generated Summary

PDF172February 21, 2025