La Supervisión del Proceso Verbal Mejora el Desempeño de los Agentes de Codificación

Resumen

El surgimiento de los modelos de lenguaje de gran escala y sus aplicaciones como agentes de IA han avanzado significativamente los puntos de referencia más avanzados en la generación de código, transformando las tareas modernas de ingeniería de software. Sin embargo, incluso con modelos de razonamiento calculados en tiempo de prueba, estos sistemas aún enfrentan dificultades con desafíos complejos de ingeniería de software. Este trabajo presenta CURA, un sistema de agente de comprensión y razonamiento de código mejorado con supervisión de procesos verbales (VPS), logrando una mejora del 3.65% sobre los modelos de referencia en puntos de referencia desafiantes como BigCodeBench. Además, CURA, cuando se combina con el modelo o3-mini y las técnicas de VPS, alcanza un rendimiento de vanguardia. Este trabajo representa un paso adelante en la integración de arquitecturas impulsadas por el razonamiento con la generación de código basada en modelos de lenguaje de gran escala, permitiendo que los modelos de lenguaje realicen razonamiento agencial para resolver tareas complejas de ingeniería de software.

English

The emergence of large language models and their applications as AI agents have significantly advanced state-of-the-art code generation benchmarks, transforming modern software engineering tasks. However, even with test-time computed reasoning models, these systems still struggle with complex software engineering challenges. This work introduces CURA, a code understanding and reasoning agent system enhanced with verbal process supervision (VPS), achieving a 3.65\% improvement over baseline models on challenging benchmarks like BigCodeBench. Furthermore, CURA, when paired with the o3-mini model and VPS techniques, attains state-of-the-art performance. This work represents a step forward in integrating reasoning-driven architectures with LLM-based code generation, enabling agentic reasoning for language models to solve complex software engineering tasks.

La Supervisión del Proceso Verbal Mejora el Desempeño de los Agentes de Codificación

Verbal Process Supervision Elicits Better Coding Agents

Resumen

Support