A Supervisão Verbal do Processo Promove Agentes de Codificação Mais Eficientes
Verbal Process Supervision Elicits Better Coding Agents
March 24, 2025
Autores: Hao-Yuan Chen, Cheng-Pong Huang, Jui-Ming Yao
cs.AI
Resumo
O surgimento de grandes modelos de linguagem e suas aplicações como agentes de IA avançaram significativamente os benchmarks de geração de código de última geração, transformando as tarefas modernas de engenharia de software. No entanto, mesmo com modelos de raciocínio computados em tempo de teste, esses sistemas ainda enfrentam dificuldades com desafios complexos de engenharia de software. Este trabalho introduz o CURA, um sistema de agente de compreensão e raciocínio de código aprimorado com supervisão de processo verbal (VPS), alcançando uma melhoria de 3,65% em relação aos modelos de base em benchmarks desafiadores como o BigCodeBench. Além disso, o CURA, quando combinado com o modelo o3-mini e técnicas de VPS, atinge desempenho de última geração. Este trabalho representa um avanço na integração de arquiteturas orientadas por raciocínio com geração de código baseada em LLM, permitindo que modelos de linguagem realizem raciocínio agentivo para resolver tarefas complexas de engenharia de software.
English
The emergence of large language models and their applications as AI agents
have significantly advanced state-of-the-art code generation benchmarks,
transforming modern software engineering tasks. However, even with test-time
computed reasoning models, these systems still struggle with complex software
engineering challenges. This work introduces CURA, a code understanding and
reasoning agent system enhanced with verbal process supervision (VPS),
achieving a 3.65\% improvement over baseline models on challenging benchmarks
like BigCodeBench. Furthermore, CURA, when paired with the o3-mini model and
VPS techniques, attains state-of-the-art performance. This work represents a
step forward in integrating reasoning-driven architectures with LLM-based code
generation, enabling agentic reasoning for language models to solve complex
software engineering tasks.Summary
AI-Generated Summary