Neubewertung der Verifikation für die Codegenerierung durch LLMs: Von der Generierung zum Testen
Rethinking Verification for LLM Code Generation: From Generation to Testing
July 9, 2025
papers.authors: Zihan Ma, Taolin Zhang, Maosong Cao, Wenwei Zhang, Minnan Luo, Songyang Zhang, Kai Chen
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben kürzlich bemerkenswerte Erfolge in Code-Generierungs-Benchmarks wie HumanEval und LiveCodeBench erzielt. Eine detaillierte Untersuchung zeigt jedoch, dass diese Bewertungssuiten oft nur eine begrenzte Anzahl homogener Testfälle umfassen, was dazu führt, dass subtile Fehler unentdeckt bleiben. Dies führt nicht nur zu einer künstlichen Aufblähung der gemessenen Leistung, sondern beeinträchtigt auch die genaue Belohnungsschätzung in Verstärkungslern-Frameworks, die verifizierbare Belohnungen (RLVR) verwenden. Um diese kritischen Mängel zu beheben, untersuchen wir systematisch die Aufgabe der Testfallgenerierung (TCG), indem wir mehrdimensionale Metriken vorschlagen, die die Gründlichkeit von Testsuiten rigoros quantifizieren sollen. Darüber hinaus führen wir eine menschlich-LLM-kollaborative Methode (SAGA) ein, die menschliche Programmierkenntnisse mit der Denkfähigkeit von LLMs kombiniert, um sowohl die Abdeckung als auch die Qualität der generierten Testfälle signifikant zu verbessern. Zusätzlich entwickeln wir ein TCGBench, um die Untersuchung der TCG-Aufgabe zu erleichtern. Experimente zeigen, dass SAGA eine Erkennungsrate von 90,62 % und eine Verifizierer-Genauigkeit von 32,58 % auf TCGBench erreicht. Die Verifizierer-Genauigkeit (Verifier Acc) des von SAGA synthetisierten Code-Generierungs-Bewertungs-Benchmarks ist um 10,78 % höher als die von LiveCodeBench-v6. Diese Ergebnisse demonstrieren die Effektivität unserer vorgeschlagenen Methode. Wir hoffen, dass diese Arbeit dazu beiträgt, eine skalierbare Grundlage für eine zuverlässige LLM-Code-Bewertung zu schaffen, die Weiterentwicklung von RLVR in der Code-Generierung voranzutreiben und den Weg für die automatisierte adversarische Testsynthese und die adaptive Benchmark-Integration zu ebnen.
English
Large language models (LLMs) have recently achieved notable success in
code-generation benchmarks such as HumanEval and LiveCodeBench. However, a
detailed examination reveals that these evaluation suites often comprise only a
limited number of homogeneous test cases, resulting in subtle faults going
undetected. This not only artificially inflates measured performance but also
compromises accurate reward estimation in reinforcement learning frameworks
utilizing verifiable rewards (RLVR). To address these critical shortcomings, we
systematically investigate the test-case generation (TCG) task by proposing
multi-dimensional metrics designed to rigorously quantify test-suite
thoroughness. Furthermore, we introduce a human-LLM collaborative method
(SAGA), leveraging human programming expertise with LLM reasoning capability,
aimed at significantly enhancing both the coverage and the quality of generated
test cases. In addition, we develop a TCGBench to facilitate the study of the
TCG task. Experiments show that SAGA achieves a detection rate of 90.62% and a
verifier accuracy of 32.58% on TCGBench. The Verifier Accuracy (Verifier Acc)
of the code generation evaluation benchmark synthesized by SAGA is 10.78%
higher than that of LiveCodeBench-v6. These results demonstrate the
effectiveness of our proposed method. We hope this work contributes to building
a scalable foundation for reliable LLM code evaluation, further advancing RLVR
in code generation, and paving the way for automated adversarial test synthesis
and adaptive benchmark integration.