La Supervisión del Proceso Verbal Mejora el Desempeño de los Agentes de Codificación
Verbal Process Supervision Elicits Better Coding Agents
March 24, 2025
Autores: Hao-Yuan Chen, Cheng-Pong Huang, Jui-Ming Yao
cs.AI
Resumen
El surgimiento de los modelos de lenguaje de gran escala y sus aplicaciones como agentes de IA han avanzado significativamente los puntos de referencia más avanzados en la generación de código, transformando las tareas modernas de ingeniería de software. Sin embargo, incluso con modelos de razonamiento calculados en tiempo de prueba, estos sistemas aún enfrentan dificultades con desafíos complejos de ingeniería de software. Este trabajo presenta CURA, un sistema de agente de comprensión y razonamiento de código mejorado con supervisión de procesos verbales (VPS), logrando una mejora del 3.65% sobre los modelos de referencia en puntos de referencia desafiantes como BigCodeBench. Además, CURA, cuando se combina con el modelo o3-mini y las técnicas de VPS, alcanza un rendimiento de vanguardia. Este trabajo representa un paso adelante en la integración de arquitecturas impulsadas por el razonamiento con la generación de código basada en modelos de lenguaje de gran escala, permitiendo que los modelos de lenguaje realicen razonamiento agencial para resolver tareas complejas de ingeniería de software.
English
The emergence of large language models and their applications as AI agents
have significantly advanced state-of-the-art code generation benchmarks,
transforming modern software engineering tasks. However, even with test-time
computed reasoning models, these systems still struggle with complex software
engineering challenges. This work introduces CURA, a code understanding and
reasoning agent system enhanced with verbal process supervision (VPS),
achieving a 3.65\% improvement over baseline models on challenging benchmarks
like BigCodeBench. Furthermore, CURA, when paired with the o3-mini model and
VPS techniques, attains state-of-the-art performance. This work represents a
step forward in integrating reasoning-driven architectures with LLM-based code
generation, enabling agentic reasoning for language models to solve complex
software engineering tasks.Summary
AI-Generated Summary