ChatPaper.aiChatPaper

HardTests : Synthétiser des cas de test de haute qualité pour le codage avec LLM

HardTests: Synthesizing High-Quality Test Cases for LLM Coding

May 30, 2025
Auteurs: Zhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li
cs.AI

Résumé

Les vérificateurs jouent un rôle crucial dans le raisonnement des grands modèles de langage (LLM), nécessaires pour des techniques post-entraînement telles que l'apprentissage par renforcement. Cependant, obtenir des vérificateurs fiables pour des problèmes de codage complexes est difficile, car une solution incorrecte bien déguisée ne peut souvent être détectée que par des cas limites soigneusement rédigés par des humains, difficiles à synthétiser. Pour résoudre ce problème, nous proposons HARDTESTGEN, un pipeline pour la synthèse de tests de haute qualité utilisant des LLM. Avec ce pipeline, nous avons constitué un ensemble de données complet de programmation compétitive, HARDTESTS, comprenant 47 000 problèmes et des tests synthétiques de haute qualité. Comparés aux tests existants, les tests HARDTESTGEN montrent une précision supérieure de 11,3 points de pourcentage et un rappel supérieur de 17,5 points de pourcentage lors de l'évaluation de code généré par LLM. Pour les problèmes plus difficiles, l'amélioration de la précision peut atteindre jusqu'à 40 points. HARDTESTS s'avère également plus efficace pour l'entraînement des modèles, mesuré par les performances en génération de code en aval. Nous mettrons à disposition notre ensemble de données et notre pipeline de synthèse en open source à l'adresse https://leililab.github.io/HardTests/.
English
Verifiers play a crucial role in large language model (LLM) reasoning, needed by post-training techniques such as reinforcement learning. However, reliable verifiers are hard to get for difficult coding problems, because a well-disguised wrong solution may only be detected by carefully human-written edge cases that are difficult to synthesize. To address this issue, we propose HARDTESTGEN, a pipeline for high-quality test synthesis using LLMs. With this pipeline, we curate a comprehensive competitive programming dataset HARDTESTS with 47k problems and synthetic high-quality tests. Compared with existing tests, HARDTESTGEN tests demonstrate precision that is 11.3 percentage points higher and recall that is 17.5 percentage points higher when evaluating LLM-generated code. For harder problems, the improvement in precision can be as large as 40 points. HARDTESTS also proves to be more effective for model training, measured by downstream code generation performance. We will open-source our dataset and synthesis pipeline at https://leililab.github.io/HardTests/.
PDF412June 2, 2025