ChatPaper.aiChatPaper

HardTests: Het Synthetiseren van Hoogwaardige Testgevallen voor LLM-codering

HardTests: Synthesizing High-Quality Test Cases for LLM Coding

May 30, 2025
Auteurs: Zhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li
cs.AI

Samenvatting

Verificatoren spelen een cruciale rol in het redeneren van grote taalmodellen (LLM's), wat nodig is voor technieken na de training, zoals reinforcement learning. Betrouwbare verificatoren zijn echter moeilijk te verkrijgen voor complexe programmeerproblemen, omdat een goed vermomde foutieve oplossing mogelijk alleen wordt gedetecteerd door zorgvuldig door mensen geschreven edge cases die moeilijk te synthetiseren zijn. Om dit probleem aan te pakken, stellen we HARDTESTGEN voor, een pijplijn voor het synthetiseren van hoogwaardige tests met behulp van LLM's. Met deze pijplijn hebben we een uitgebreide dataset voor competitief programmeren, HARDTESTS, samengesteld met 47k problemen en synthetische hoogwaardige tests. In vergelijking met bestaande tests tonen HARDTESTGEN-tests een precisie die 11,3 procentpunten hoger is en een recall die 17,5 procentpunten hoger is bij het evalueren van door LLM gegenereerde code. Voor moeilijkere problemen kan de verbetering in precisie oplopen tot 40 punten. HARDTESTS blijkt ook effectiever te zijn voor modeltraining, gemeten aan de hand van de prestaties van downstream codegeneratie. We zullen onze dataset en synthesepijplijn opensource maken op https://leililab.github.io/HardTests/.
English
Verifiers play a crucial role in large language model (LLM) reasoning, needed by post-training techniques such as reinforcement learning. However, reliable verifiers are hard to get for difficult coding problems, because a well-disguised wrong solution may only be detected by carefully human-written edge cases that are difficult to synthesize. To address this issue, we propose HARDTESTGEN, a pipeline for high-quality test synthesis using LLMs. With this pipeline, we curate a comprehensive competitive programming dataset HARDTESTS with 47k problems and synthetic high-quality tests. Compared with existing tests, HARDTESTGEN tests demonstrate precision that is 11.3 percentage points higher and recall that is 17.5 percentage points higher when evaluating LLM-generated code. For harder problems, the improvement in precision can be as large as 40 points. HARDTESTS also proves to be more effective for model training, measured by downstream code generation performance. We will open-source our dataset and synthesis pipeline at https://leililab.github.io/HardTests/.
PDF432June 2, 2025