Repenser la vérification pour la génération de code par LLM : de la génération au test
Rethinking Verification for LLM Code Generation: From Generation to Testing
July 9, 2025
papers.authors: Zihan Ma, Taolin Zhang, Maosong Cao, Wenwei Zhang, Minnan Luo, Songyang Zhang, Kai Chen
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) ont récemment obtenu des succès notables dans des benchmarks de génération de code tels que HumanEval et LiveCodeBench. Cependant, un examen approfondi révèle que ces suites d'évaluation comprennent souvent un nombre limité de cas de test homogènes, ce qui entraîne la non-détection de fautes subtiles. Cela non seulement gonfle artificiellement les performances mesurées, mais compromet également l'estimation précise des récompenses dans les cadres d'apprentissage par renforcement utilisant des récompenses vérifiables (RLVR). Pour remédier à ces lacunes critiques, nous étudions systématiquement la tâche de génération de cas de test (TCG) en proposant des métriques multidimensionnelles conçues pour quantifier rigoureusement l'exhaustivité des suites de test. De plus, nous introduisons une méthode collaborative humain-LLM (SAGA), exploitant l'expertise en programmation humaine et la capacité de raisonnement des LLMs, visant à améliorer significativement à la fois la couverture et la qualité des cas de test générés. Par ailleurs, nous développons un TCGBench pour faciliter l'étude de la tâche TCG. Les expériences montrent que SAGA atteint un taux de détection de 90,62 % et une précision du vérificateur de 32,58 % sur TCGBench. La précision du vérificateur (Verifier Acc) du benchmark d'évaluation de génération de code synthétisé par SAGA est 10,78 % plus élevée que celle de LiveCodeBench-v6. Ces résultats démontrent l'efficacité de notre méthode proposée. Nous espérons que ce travail contribue à construire une base scalable pour une évaluation fiable du code généré par les LLMs, à faire progresser davantage le RLVR dans la génération de code, et à ouvrir la voie à la synthèse automatisée de tests adversariaux et à l'intégration adaptative de benchmarks.
English
Large language models (LLMs) have recently achieved notable success in
code-generation benchmarks such as HumanEval and LiveCodeBench. However, a
detailed examination reveals that these evaluation suites often comprise only a
limited number of homogeneous test cases, resulting in subtle faults going
undetected. This not only artificially inflates measured performance but also
compromises accurate reward estimation in reinforcement learning frameworks
utilizing verifiable rewards (RLVR). To address these critical shortcomings, we
systematically investigate the test-case generation (TCG) task by proposing
multi-dimensional metrics designed to rigorously quantify test-suite
thoroughness. Furthermore, we introduce a human-LLM collaborative method
(SAGA), leveraging human programming expertise with LLM reasoning capability,
aimed at significantly enhancing both the coverage and the quality of generated
test cases. In addition, we develop a TCGBench to facilitate the study of the
TCG task. Experiments show that SAGA achieves a detection rate of 90.62% and a
verifier accuracy of 32.58% on TCGBench. The Verifier Accuracy (Verifier Acc)
of the code generation evaluation benchmark synthesized by SAGA is 10.78%
higher than that of LiveCodeBench-v6. These results demonstrate the
effectiveness of our proposed method. We hope this work contributes to building
a scalable foundation for reliable LLM code evaluation, further advancing RLVR
in code generation, and paving the way for automated adversarial test synthesis
and adaptive benchmark integration.