IterPref: Aprendizaje de Preferencias Focales para la Generación de Código mediante Depuración Iterativa

Resumen

El aprendizaje de preferencias mejora los modelos de lenguaje de código (Code LLMs) más allá del ajuste fino supervisado al aprovechar comparaciones relativas de calidad. Los métodos existentes construyen pares de preferencia a partir de candidatos basados en el éxito de casos de prueba, tratando la muestra con mayor tasa de aprobación como positiva y la de menor tasa como negativa. Sin embargo, este enfoque no identifica errores específicos en el código, lo que impide que el modelo aprenda patrones más informativos de corrección de errores, ya que alinear el código fallido en su conjunto carece de la granularidad necesaria para capturar relaciones significativas de resolución de errores. Para abordar estos problemas, proponemos IterPref, un nuevo marco de alineación de preferencias que imita la depuración iterativa humana para refinar los Code LLMs. IterPref localiza explícitamente las regiones de error y alinea los tokens correspondientes mediante un algoritmo DPO adaptado. Para generar pares informativos, presentamos el conjunto de datos CodeFlow, donde las muestras se refinan iterativamente hasta pasar las pruebas, capturando las correcciones de errores en las modificaciones. Experimentos extensos muestran que una suite diversa de Code LLMs equipados con IterPref logra mejoras significativas en la generación de código y avanza en tareas desafiantes como BigCodeBench. Un análisis en profundidad revela que IterPref produce menos errores. Nuestro código y datos estarán disponibles públicamente.

English

Preference learning enhances Code LLMs beyond supervised fine-tuning by leveraging relative quality comparisons. Existing methods construct preference pairs from candidates based on test case success, treating the higher pass rate sample as positive and the lower as negative. However, this approach does not pinpoint specific errors in the code, which prevents the model from learning more informative error correction patterns, as aligning failing code as a whole lacks the granularity needed to capture meaningful error-resolution relationships. To address these issues, we propose IterPref, a new preference alignment framework that mimics human iterative debugging to refine Code LLMs. IterPref explicitly locates error regions and aligns the corresponding tokens via a tailored DPO algorithm. To generate informative pairs, we introduce the CodeFlow dataset, where samples are iteratively refined until passing tests, with modifications capturing error corrections. Extensive experiments show that a diverse suite of Code LLMs equipped with IterPref achieves significant performance gains in code generation and improves on challenging tasks like BigCodeBench. In-depth analysis reveals that IterPref yields fewer errors. Our code and data will be made publicaly available.

IterPref: Aprendizaje de Preferencias Focales para la Generación de Código mediante Depuración Iterativa

IterPref: Focal Preference Learning for Code Generation via Iterative Debugging

Resumen

Support