HardTests: Synthese hochwertiger Testfälle für LLM-Codierung

papers.abstract

Verifizierer spielen eine entscheidende Rolle beim Reasoning großer Sprachmodelle (LLMs), das durch Post-Training-Techniken wie Reinforcement Learning benötigt wird. Zuverlässige Verifizierer sind jedoch bei schwierigen Programmierproblemen schwer zu erhalten, da eine gut getarnte falsche Lösung oft nur durch sorgfältig von Menschen geschriebene Edge Cases erkannt werden kann, die schwer zu synthetisieren sind. Um dieses Problem zu lösen, schlagen wir HARDTESTGEN vor, eine Pipeline zur Synthese hochwertiger Tests unter Verwendung von LLMs. Mit dieser Pipeline erstellen wir einen umfassenden Wettbewerbsprogrammierungsdatensatz HARDTESTS mit 47.000 Problemen und synthetischen, hochwertigen Tests. Im Vergleich zu bestehenden Tests zeigen HARDTESTGEN-Tests eine Präzision, die 11,3 Prozentpunkte höher ist, und eine Recall-Rate, die 17,5 Prozentpunkte höher ist, wenn LLM-generierter Code evaluiert wird. Bei schwierigeren Problemen kann die Verbesserung der Präzision bis zu 40 Punkte betragen. HARDTESTS erweist sich auch als effektiver für das Modelltraining, gemessen an der nachgelagerten Codegenerierungsleistung. Wir werden unseren Datensatz und die Synthese-Pipeline unter https://leililab.github.io/HardTests/ open-source zur Verfügung stellen.

English

Verifiers play a crucial role in large language model (LLM) reasoning, needed by post-training techniques such as reinforcement learning. However, reliable verifiers are hard to get for difficult coding problems, because a well-disguised wrong solution may only be detected by carefully human-written edge cases that are difficult to synthesize. To address this issue, we propose HARDTESTGEN, a pipeline for high-quality test synthesis using LLMs. With this pipeline, we curate a comprehensive competitive programming dataset HARDTESTS with 47k problems and synthetic high-quality tests. Compared with existing tests, HARDTESTGEN tests demonstrate precision that is 11.3 percentage points higher and recall that is 17.5 percentage points higher when evaluating LLM-generated code. For harder problems, the improvement in precision can be as large as 40 points. HARDTESTS also proves to be more effective for model training, measured by downstream code generation performance. We will open-source our dataset and synthesis pipeline at https://leililab.github.io/HardTests/.

HardTests: Synthese hochwertiger Testfälle für LLM-Codierung

HardTests: Synthesizing High-Quality Test Cases for LLM Coding

papers.abstract

Support