ChatPaper.aiChatPaper

Comment faire en sorte que votre modèle de langage génère des problèmes complexes pour l'évaluation

How to Get Your LLM to Generate Challenging Problems for Evaluation

February 20, 2025
Auteurs: Arkil Patel, Siva Reddy, Dzmitry Bahdanau
cs.AI

Résumé

Le rythme d'évolution des modèles de langage de grande taille (LLMs) nécessite de nouvelles approches pour une évaluation rigoureuse et exhaustive. L'annotation humaine traditionnelle devient de plus en plus impraticable en raison des complexités et des coûts associés à la génération de problèmes de haute qualité et difficiles. Dans ce travail, nous introduisons CHASE, un cadre unifié pour générer synthétiquement des problèmes complexes à l'aide de LLMs sans intervention humaine. Pour une tâche donnée, notre approche construit un problème difficile de manière ascendante à partir de composants plus simples. De plus, notre cadre décompose le processus de génération en sous-tâches vérifiables de manière indépendante, garantissant ainsi un niveau élevé de qualité et de justesse. Nous mettons en œuvre CHASE pour créer des benchmarks d'évaluation dans trois domaines variés : (1) la réponse à des questions basées sur des documents, (2) la complétion de code au niveau d'un dépôt, et (3) le raisonnement mathématique. La performance des LLMs de pointe sur ces benchmarks synthétiques se situe dans une plage de précision de 40 à 60 %, démontrant ainsi l'efficacité de notre cadre pour générer des problèmes difficiles. Nous rendons publics nos benchmarks et notre code.
English
The pace of evolution of Large Language Models (LLMs) necessitates new approaches for rigorous and comprehensive evaluation. Traditional human annotation is increasingly impracticable due to the complexities and costs involved in generating high-quality, challenging problems. In this work, we introduce CHASE, a unified framework to synthetically generate challenging problems using LLMs without human involvement. For a given task, our approach builds a hard problem in a bottom-up manner from simpler components. Moreover, our framework decomposes the generation process into independently verifiable sub-tasks, thereby ensuring a high level of quality and correctness. We implement CHASE to create evaluation benchmarks across three diverse domains: (1) document-based question answering, (2) repository-level code completion, and (3) math reasoning. The performance of state-of-the-art LLMs on these synthetic benchmarks lies in the range of 40-60% accuracy, thereby demonstrating the effectiveness of our framework at generating challenging problems. We publicly release our benchmarks and code.

Summary

AI-Generated Summary

PDF172February 21, 2025