La supervision verbale des processus améliore les performances des agents de codage.

papers.abstract

L'émergence des grands modèles de langage et de leurs applications en tant qu'agents d'IA a considérablement fait progresser les benchmarks de pointe en génération de code, transformant les tâches modernes d'ingénierie logicielle. Cependant, même avec des modèles de raisonnement calculés en temps de test, ces systèmes continuent de rencontrer des difficultés face aux défis complexes de l'ingénierie logicielle. Ce travail présente CURA, un système d'agent de compréhension et de raisonnement sur le code amélioré par une supervision verbale des processus (VPS), obtenant une amélioration de 3,65 % par rapport aux modèles de référence sur des benchmarks exigeants comme BigCodeBench. De plus, CURA, lorsqu'il est associé au modèle o3-mini et aux techniques VPS, atteint des performances de pointe. Ce travail représente une avancée dans l'intégration d'architectures pilotées par le raisonnement avec la génération de code basée sur les grands modèles de langage, permettant un raisonnement agentique pour les modèles de langage afin de résoudre des tâches complexes d'ingénierie logicielle.

English

The emergence of large language models and their applications as AI agents have significantly advanced state-of-the-art code generation benchmarks, transforming modern software engineering tasks. However, even with test-time computed reasoning models, these systems still struggle with complex software engineering challenges. This work introduces CURA, a code understanding and reasoning agent system enhanced with verbal process supervision (VPS), achieving a 3.65\% improvement over baseline models on challenging benchmarks like BigCodeBench. Furthermore, CURA, when paired with the o3-mini model and VPS techniques, attains state-of-the-art performance. This work represents a step forward in integrating reasoning-driven architectures with LLM-based code generation, enabling agentic reasoning for language models to solve complex software engineering tasks.

La supervision verbale des processus améliore les performances des agents de codage.

Verbal Process Supervision Elicits Better Coding Agents

papers.abstract

Support