Repenser la vérification pour la génération de code par LLM : de la génération au test

papers.abstract

Les grands modèles de langage (LLMs) ont récemment obtenu des succès notables dans des benchmarks de génération de code tels que HumanEval et LiveCodeBench. Cependant, un examen approfondi révèle que ces suites d'évaluation comprennent souvent un nombre limité de cas de test homogènes, ce qui entraîne la non-détection de fautes subtiles. Cela non seulement gonfle artificiellement les performances mesurées, mais compromet également l'estimation précise des récompenses dans les cadres d'apprentissage par renforcement utilisant des récompenses vérifiables (RLVR). Pour remédier à ces lacunes critiques, nous étudions systématiquement la tâche de génération de cas de test (TCG) en proposant des métriques multidimensionnelles conçues pour quantifier rigoureusement l'exhaustivité des suites de test. De plus, nous introduisons une méthode collaborative humain-LLM (SAGA), exploitant l'expertise en programmation humaine et la capacité de raisonnement des LLMs, visant à améliorer significativement à la fois la couverture et la qualité des cas de test générés. Par ailleurs, nous développons un TCGBench pour faciliter l'étude de la tâche TCG. Les expériences montrent que SAGA atteint un taux de détection de 90,62 % et une précision du vérificateur de 32,58 % sur TCGBench. La précision du vérificateur (Verifier Acc) du benchmark d'évaluation de génération de code synthétisé par SAGA est 10,78 % plus élevée que celle de LiveCodeBench-v6. Ces résultats démontrent l'efficacité de notre méthode proposée. Nous espérons que ce travail contribue à construire une base scalable pour une évaluation fiable du code généré par les LLMs, à faire progresser davantage le RLVR dans la génération de code, et à ouvrir la voie à la synthèse automatisée de tests adversariaux et à l'intégration adaptative de benchmarks.

English

Large language models (LLMs) have recently achieved notable success in code-generation benchmarks such as HumanEval and LiveCodeBench. However, a detailed examination reveals that these evaluation suites often comprise only a limited number of homogeneous test cases, resulting in subtle faults going undetected. This not only artificially inflates measured performance but also compromises accurate reward estimation in reinforcement learning frameworks utilizing verifiable rewards (RLVR). To address these critical shortcomings, we systematically investigate the test-case generation (TCG) task by proposing multi-dimensional metrics designed to rigorously quantify test-suite thoroughness. Furthermore, we introduce a human-LLM collaborative method (SAGA), leveraging human programming expertise with LLM reasoning capability, aimed at significantly enhancing both the coverage and the quality of generated test cases. In addition, we develop a TCGBench to facilitate the study of the TCG task. Experiments show that SAGA achieves a detection rate of 90.62% and a verifier accuracy of 32.58% on TCGBench. The Verifier Accuracy (Verifier Acc) of the code generation evaluation benchmark synthesized by SAGA is 10.78% higher than that of LiveCodeBench-v6. These results demonstrate the effectiveness of our proposed method. We hope this work contributes to building a scalable foundation for reliable LLM code evaluation, further advancing RLVR in code generation, and paving the way for automated adversarial test synthesis and adaptive benchmark integration.

Repenser la vérification pour la génération de code par LLM : de la génération au test

Rethinking Verification for LLM Code Generation: From Generation to Testing

papers.abstract

Support