HardTests: Sintetizando Casos de Teste de Alta Qualidade para Codificação com LLM
HardTests: Synthesizing High-Quality Test Cases for LLM Coding
May 30, 2025
Autores: Zhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li
cs.AI
Resumo
Verificadores desempenham um papel crucial no raciocínio de modelos de linguagem de grande escala (LLMs), sendo necessários para técnicas pós-treinamento, como aprendizado por reforço. No entanto, obter verificadores confiáveis para problemas de codificação difíceis é desafiador, pois uma solução errada bem disfarçada pode ser detectada apenas por casos de teste cuidadosamente escritos por humanos, que são difíceis de sintetizar. Para resolver esse problema, propomos o HARDTESTGEN, um pipeline para síntese de testes de alta qualidade utilizando LLMs. Com esse pipeline, criamos um conjunto de dados abrangente de programação competitiva, o HARDTESTS, com 47 mil problemas e testes sintéticos de alta qualidade. Em comparação com os testes existentes, os testes do HARDTESTGEN demonstram uma precisão 11,3 pontos percentuais maior e uma revocação 17,5 pontos percentuais maior ao avaliar códigos gerados por LLMs. Para problemas mais difíceis, a melhoria na precisão pode chegar a 40 pontos. O HARDTESTS também se mostra mais eficaz para o treinamento de modelos, medido pelo desempenho na geração de código subsequente. Disponibilizaremos nosso conjunto de dados e pipeline de síntesis em código aberto em https://leililab.github.io/HardTests/.
English
Verifiers play a crucial role in large language model (LLM) reasoning, needed
by post-training techniques such as reinforcement learning. However, reliable
verifiers are hard to get for difficult coding problems, because a
well-disguised wrong solution may only be detected by carefully human-written
edge cases that are difficult to synthesize. To address this issue, we propose
HARDTESTGEN, a pipeline for high-quality test synthesis using LLMs. With this
pipeline, we curate a comprehensive competitive programming dataset HARDTESTS
with 47k problems and synthetic high-quality tests. Compared with existing
tests, HARDTESTGEN tests demonstrate precision that is 11.3 percentage points
higher and recall that is 17.5 percentage points higher when evaluating
LLM-generated code. For harder problems, the improvement in precision can be as
large as 40 points. HARDTESTS also proves to be more effective for model
training, measured by downstream code generation performance. We will
open-source our dataset and synthesis pipeline at
https://leililab.github.io/HardTests/.