Comment faire en sorte que votre modèle de langage génère des problèmes complexes pour l'évaluation
How to Get Your LLM to Generate Challenging Problems for Evaluation
February 20, 2025
Auteurs: Arkil Patel, Siva Reddy, Dzmitry Bahdanau
cs.AI
Résumé
Le rythme d'évolution des modèles de langage de grande taille (LLMs) nécessite de nouvelles approches pour une évaluation rigoureuse et exhaustive. L'annotation humaine traditionnelle devient de plus en plus impraticable en raison des complexités et des coûts associés à la génération de problèmes de haute qualité et difficiles. Dans ce travail, nous introduisons CHASE, un cadre unifié pour générer synthétiquement des problèmes complexes à l'aide de LLMs sans intervention humaine. Pour une tâche donnée, notre approche construit un problème difficile de manière ascendante à partir de composants plus simples. De plus, notre cadre décompose le processus de génération en sous-tâches vérifiables de manière indépendante, garantissant ainsi un niveau élevé de qualité et de justesse. Nous mettons en œuvre CHASE pour créer des benchmarks d'évaluation dans trois domaines variés : (1) la réponse à des questions basées sur des documents, (2) la complétion de code au niveau d'un dépôt, et (3) le raisonnement mathématique. La performance des LLMs de pointe sur ces benchmarks synthétiques se situe dans une plage de précision de 40 à 60 %, démontrant ainsi l'efficacité de notre cadre pour générer des problèmes difficiles. Nous rendons publics nos benchmarks et notre code.
English
The pace of evolution of Large Language Models (LLMs) necessitates new
approaches for rigorous and comprehensive evaluation. Traditional human
annotation is increasingly impracticable due to the complexities and costs
involved in generating high-quality, challenging problems. In this work, we
introduce CHASE, a unified framework to synthetically generate challenging
problems using LLMs without human involvement. For a given task, our approach
builds a hard problem in a bottom-up manner from simpler components. Moreover,
our framework decomposes the generation process into independently verifiable
sub-tasks, thereby ensuring a high level of quality and correctness. We
implement CHASE to create evaluation benchmarks across three diverse domains:
(1) document-based question answering, (2) repository-level code completion,
and (3) math reasoning. The performance of state-of-the-art LLMs on these
synthetic benchmarks lies in the range of 40-60% accuracy, thereby
demonstrating the effectiveness of our framework at generating challenging
problems. We publicly release our benchmarks and code.Summary
AI-Generated Summary