HardTests: Síntesis de Casos de Prueba de Alta Calidad para Codificación con LLM

Resumen

Los verificadores desempeñan un papel crucial en el razonamiento de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), siendo necesarios para técnicas posteriores al entrenamiento, como el aprendizaje por refuerzo. Sin embargo, obtener verificadores confiables para problemas de codificación difíciles es complicado, ya que una solución incorrecta bien disfrazada solo puede detectarse mediante casos extremos cuidadosamente escritos por humanos que son difíciles de sintetizar. Para abordar este problema, proponemos HARDTESTGEN, una canalización para la síntesis de pruebas de alta calidad utilizando LLM. Con esta canalización, hemos creado un conjunto de datos exhaustivo de programación competitiva llamado HARDTESTS, que incluye 47k problemas y pruebas sintéticas de alta calidad. En comparación con las pruebas existentes, las pruebas de HARDTESTGEN muestran una precisión 11.3 puntos porcentuales mayor y una recuperación 17.5 puntos porcentuales mayor al evaluar código generado por LLM. Para problemas más difíciles, la mejora en la precisión puede llegar a ser de hasta 40 puntos. HARDTESTS también demuestra ser más efectivo para el entrenamiento de modelos, medido por el rendimiento en la generación de código en tareas posteriores. Publicaremos nuestro conjunto de datos y la canalización de síntesis en https://leililab.github.io/HardTests/.

English

Verifiers play a crucial role in large language model (LLM) reasoning, needed by post-training techniques such as reinforcement learning. However, reliable verifiers are hard to get for difficult coding problems, because a well-disguised wrong solution may only be detected by carefully human-written edge cases that are difficult to synthesize. To address this issue, we propose HARDTESTGEN, a pipeline for high-quality test synthesis using LLMs. With this pipeline, we curate a comprehensive competitive programming dataset HARDTESTS with 47k problems and synthetic high-quality tests. Compared with existing tests, HARDTESTGEN tests demonstrate precision that is 11.3 percentage points higher and recall that is 17.5 percentage points higher when evaluating LLM-generated code. For harder problems, the improvement in precision can be as large as 40 points. HARDTESTS also proves to be more effective for model training, measured by downstream code generation performance. We will open-source our dataset and synthesis pipeline at https://leililab.github.io/HardTests/.

HardTests: Síntesis de Casos de Prueba de Alta Calidad para Codificación con LLM

HardTests: Synthesizing High-Quality Test Cases for LLM Coding

Resumen

Support