HardTests: Síntesis de Casos de Prueba de Alta Calidad para Codificación con LLM
HardTests: Synthesizing High-Quality Test Cases for LLM Coding
May 30, 2025
Autores: Zhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li
cs.AI
Resumen
Los verificadores desempeñan un papel crucial en el razonamiento de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), siendo necesarios para técnicas posteriores al entrenamiento, como el aprendizaje por refuerzo. Sin embargo, obtener verificadores confiables para problemas de codificación difíciles es complicado, ya que una solución incorrecta bien disfrazada solo puede detectarse mediante casos extremos cuidadosamente escritos por humanos que son difíciles de sintetizar. Para abordar este problema, proponemos HARDTESTGEN, una canalización para la síntesis de pruebas de alta calidad utilizando LLM. Con esta canalización, hemos creado un conjunto de datos exhaustivo de programación competitiva llamado HARDTESTS, que incluye 47k problemas y pruebas sintéticas de alta calidad. En comparación con las pruebas existentes, las pruebas de HARDTESTGEN muestran una precisión 11.3 puntos porcentuales mayor y una recuperación 17.5 puntos porcentuales mayor al evaluar código generado por LLM. Para problemas más difíciles, la mejora en la precisión puede llegar a ser de hasta 40 puntos. HARDTESTS también demuestra ser más efectivo para el entrenamiento de modelos, medido por el rendimiento en la generación de código en tareas posteriores. Publicaremos nuestro conjunto de datos y la canalización de síntesis en https://leililab.github.io/HardTests/.
English
Verifiers play a crucial role in large language model (LLM) reasoning, needed
by post-training techniques such as reinforcement learning. However, reliable
verifiers are hard to get for difficult coding problems, because a
well-disguised wrong solution may only be detected by carefully human-written
edge cases that are difficult to synthesize. To address this issue, we propose
HARDTESTGEN, a pipeline for high-quality test synthesis using LLMs. With this
pipeline, we curate a comprehensive competitive programming dataset HARDTESTS
with 47k problems and synthetic high-quality tests. Compared with existing
tests, HARDTESTGEN tests demonstrate precision that is 11.3 percentage points
higher and recall that is 17.5 percentage points higher when evaluating
LLM-generated code. For harder problems, the improvement in precision can be as
large as 40 points. HARDTESTS also proves to be more effective for model
training, measured by downstream code generation performance. We will
open-source our dataset and synthesis pipeline at
https://leililab.github.io/HardTests/.