HardTests: Синтез высококачественных тестовых случаев для кодирования на языковых моделях (LLM)
HardTests: Synthesizing High-Quality Test Cases for LLM Coding
May 30, 2025
Авторы: Zhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li
cs.AI
Аннотация
Верификаторы играют ключевую роль в рассуждениях больших языковых моделей (LLM), необходимых для посттренировочных методов, таких как обучение с подкреплением. Однако надежные верификаторы сложно получить для трудных задач программирования, поскольку хорошо замаскированное ошибочное решение может быть обнаружено только с помощью тщательно написанных человеком граничных случаев, которые сложно синтезировать. Чтобы решить эту проблему, мы предлагаем HARDTESTGEN — конвейер для синтеза высококачественных тестов с использованием LLM. С помощью этого конвейера мы создали всеобъемлющий набор данных для соревновательного программирования HARDTESTS, содержащий 47 тысяч задач и синтетические высококачественные тесты. По сравнению с существующими тестами, тесты HARDTESTGEN демонстрируют точность, которая на 11,3 процентных пункта выше, и полноту, которая на 17,5 процентных пункта выше при оценке кода, сгенерированного LLM. Для более сложных задач улучшение точности может достигать 40 пунктов. HARDTESTS также оказывается более эффективным для обучения моделей, что измеряется производительностью генерации кода на последующих этапах. Мы опубликуем наш набор данных и конвейер синтеза по адресу https://leililab.github.io/HardTests/.
English
Verifiers play a crucial role in large language model (LLM) reasoning, needed
by post-training techniques such as reinforcement learning. However, reliable
verifiers are hard to get for difficult coding problems, because a
well-disguised wrong solution may only be detected by carefully human-written
edge cases that are difficult to synthesize. To address this issue, we propose
HARDTESTGEN, a pipeline for high-quality test synthesis using LLMs. With this
pipeline, we curate a comprehensive competitive programming dataset HARDTESTS
with 47k problems and synthetic high-quality tests. Compared with existing
tests, HARDTESTGEN tests demonstrate precision that is 11.3 percentage points
higher and recall that is 17.5 percentage points higher when evaluating
LLM-generated code. For harder problems, the improvement in precision can be as
large as 40 points. HARDTESTS also proves to be more effective for model
training, measured by downstream code generation performance. We will
open-source our dataset and synthesis pipeline at
https://leililab.github.io/HardTests/.