A Supervisão Verbal do Processo Promove Agentes de Codificação Mais Eficientes

Resumo

O surgimento de grandes modelos de linguagem e suas aplicações como agentes de IA avançaram significativamente os benchmarks de geração de código de última geração, transformando as tarefas modernas de engenharia de software. No entanto, mesmo com modelos de raciocínio computados em tempo de teste, esses sistemas ainda enfrentam dificuldades com desafios complexos de engenharia de software. Este trabalho introduz o CURA, um sistema de agente de compreensão e raciocínio de código aprimorado com supervisão de processo verbal (VPS), alcançando uma melhoria de 3,65% em relação aos modelos de base em benchmarks desafiadores como o BigCodeBench. Além disso, o CURA, quando combinado com o modelo o3-mini e técnicas de VPS, atinge desempenho de última geração. Este trabalho representa um avanço na integração de arquiteturas orientadas por raciocínio com geração de código baseada em LLM, permitindo que modelos de linguagem realizem raciocínio agentivo para resolver tarefas complexas de engenharia de software.

English

The emergence of large language models and their applications as AI agents have significantly advanced state-of-the-art code generation benchmarks, transforming modern software engineering tasks. However, even with test-time computed reasoning models, these systems still struggle with complex software engineering challenges. This work introduces CURA, a code understanding and reasoning agent system enhanced with verbal process supervision (VPS), achieving a 3.65\% improvement over baseline models on challenging benchmarks like BigCodeBench. Furthermore, CURA, when paired with the o3-mini model and VPS techniques, attains state-of-the-art performance. This work represents a step forward in integrating reasoning-driven architectures with LLM-based code generation, enabling agentic reasoning for language models to solve complex software engineering tasks.

A Supervisão Verbal do Processo Promove Agentes de Codificação Mais Eficientes

Verbal Process Supervision Elicits Better Coding Agents

Resumo

Support