HardTests: Sintetizando Casos de Teste de Alta Qualidade para Codificação com LLM

Resumo

Verificadores desempenham um papel crucial no raciocínio de modelos de linguagem de grande escala (LLMs), sendo necessários para técnicas pós-treinamento, como aprendizado por reforço. No entanto, obter verificadores confiáveis para problemas de codificação difíceis é desafiador, pois uma solução errada bem disfarçada pode ser detectada apenas por casos de teste cuidadosamente escritos por humanos, que são difíceis de sintetizar. Para resolver esse problema, propomos o HARDTESTGEN, um pipeline para síntese de testes de alta qualidade utilizando LLMs. Com esse pipeline, criamos um conjunto de dados abrangente de programação competitiva, o HARDTESTS, com 47 mil problemas e testes sintéticos de alta qualidade. Em comparação com os testes existentes, os testes do HARDTESTGEN demonstram uma precisão 11,3 pontos percentuais maior e uma revocação 17,5 pontos percentuais maior ao avaliar códigos gerados por LLMs. Para problemas mais difíceis, a melhoria na precisão pode chegar a 40 pontos. O HARDTESTS também se mostra mais eficaz para o treinamento de modelos, medido pelo desempenho na geração de código subsequente. Disponibilizaremos nosso conjunto de dados e pipeline de síntesis em código aberto em https://leililab.github.io/HardTests/.

English

Verifiers play a crucial role in large language model (LLM) reasoning, needed by post-training techniques such as reinforcement learning. However, reliable verifiers are hard to get for difficult coding problems, because a well-disguised wrong solution may only be detected by carefully human-written edge cases that are difficult to synthesize. To address this issue, we propose HARDTESTGEN, a pipeline for high-quality test synthesis using LLMs. With this pipeline, we curate a comprehensive competitive programming dataset HARDTESTS with 47k problems and synthetic high-quality tests. Compared with existing tests, HARDTESTGEN tests demonstrate precision that is 11.3 percentage points higher and recall that is 17.5 percentage points higher when evaluating LLM-generated code. For harder problems, the improvement in precision can be as large as 40 points. HARDTESTS also proves to be more effective for model training, measured by downstream code generation performance. We will open-source our dataset and synthesis pipeline at https://leililab.github.io/HardTests/.

HardTests: Sintetizando Casos de Teste de Alta Qualidade para Codificação com LLM

HardTests: Synthesizing High-Quality Test Cases for LLM Coding

Resumo

Support