Neubewertung der Verifikation für die Codegenerierung durch LLMs: Von der Generierung zum Testen

papers.abstract

Große Sprachmodelle (LLMs) haben kürzlich bemerkenswerte Erfolge in Code-Generierungs-Benchmarks wie HumanEval und LiveCodeBench erzielt. Eine detaillierte Untersuchung zeigt jedoch, dass diese Bewertungssuiten oft nur eine begrenzte Anzahl homogener Testfälle umfassen, was dazu führt, dass subtile Fehler unentdeckt bleiben. Dies führt nicht nur zu einer künstlichen Aufblähung der gemessenen Leistung, sondern beeinträchtigt auch die genaue Belohnungsschätzung in Verstärkungslern-Frameworks, die verifizierbare Belohnungen (RLVR) verwenden. Um diese kritischen Mängel zu beheben, untersuchen wir systematisch die Aufgabe der Testfallgenerierung (TCG), indem wir mehrdimensionale Metriken vorschlagen, die die Gründlichkeit von Testsuiten rigoros quantifizieren sollen. Darüber hinaus führen wir eine menschlich-LLM-kollaborative Methode (SAGA) ein, die menschliche Programmierkenntnisse mit der Denkfähigkeit von LLMs kombiniert, um sowohl die Abdeckung als auch die Qualität der generierten Testfälle signifikant zu verbessern. Zusätzlich entwickeln wir ein TCGBench, um die Untersuchung der TCG-Aufgabe zu erleichtern. Experimente zeigen, dass SAGA eine Erkennungsrate von 90,62 % und eine Verifizierer-Genauigkeit von 32,58 % auf TCGBench erreicht. Die Verifizierer-Genauigkeit (Verifier Acc) des von SAGA synthetisierten Code-Generierungs-Bewertungs-Benchmarks ist um 10,78 % höher als die von LiveCodeBench-v6. Diese Ergebnisse demonstrieren die Effektivität unserer vorgeschlagenen Methode. Wir hoffen, dass diese Arbeit dazu beiträgt, eine skalierbare Grundlage für eine zuverlässige LLM-Code-Bewertung zu schaffen, die Weiterentwicklung von RLVR in der Code-Generierung voranzutreiben und den Weg für die automatisierte adversarische Testsynthese und die adaptive Benchmark-Integration zu ebnen.

English

Large language models (LLMs) have recently achieved notable success in code-generation benchmarks such as HumanEval and LiveCodeBench. However, a detailed examination reveals that these evaluation suites often comprise only a limited number of homogeneous test cases, resulting in subtle faults going undetected. This not only artificially inflates measured performance but also compromises accurate reward estimation in reinforcement learning frameworks utilizing verifiable rewards (RLVR). To address these critical shortcomings, we systematically investigate the test-case generation (TCG) task by proposing multi-dimensional metrics designed to rigorously quantify test-suite thoroughness. Furthermore, we introduce a human-LLM collaborative method (SAGA), leveraging human programming expertise with LLM reasoning capability, aimed at significantly enhancing both the coverage and the quality of generated test cases. In addition, we develop a TCGBench to facilitate the study of the TCG task. Experiments show that SAGA achieves a detection rate of 90.62% and a verifier accuracy of 32.58% on TCGBench. The Verifier Accuracy (Verifier Acc) of the code generation evaluation benchmark synthesized by SAGA is 10.78% higher than that of LiveCodeBench-v6. These results demonstrate the effectiveness of our proposed method. We hope this work contributes to building a scalable foundation for reliable LLM code evaluation, further advancing RLVR in code generation, and paving the way for automated adversarial test synthesis and adaptive benchmark integration.

Neubewertung der Verifikation für die Codegenerierung durch LLMs: Von der Generierung zum Testen

Rethinking Verification for LLM Code Generation: From Generation to Testing

papers.abstract

Support