CodeTracer : Vers un suivi traçable des états de l'agent

Résumé

Les agents de code progressent rapidement, mais leur débogage devient de plus en plus difficile. Lorsque les cadres logiciels orchestrent des appels d'outils parallèles et des flux de travail multi-étapes pour des tâches complexes, les transitions d'état de l'agent et la propagation des erreurs deviennent difficiles à observer. Lors de ces exécutions, une erreur précoce peut piéger l'agent dans des boucles improductives ou même entraîner des erreurs fondamentales en cascade, formant des chaînes d'erreurs cachées qui rendent difficile l'identification du moment et de la raison pour lesquels l'agent dévie. Les analyses de traçage existantes se concentrent soit sur des interactions simples, soit reposent sur une inspection manuelle à petite échelle, ce qui limite leur évolutivité et leur utilité pour les flux de travail de codage réels. Nous présentons CodeTracer, une architecture de traçage qui analyse les artefacts d'exécution hétérogènes via des extracteurs évolutifs, reconstruit l'historique complet des transitions d'état sous forme d'arbre de traces hiérarchique avec mémoire persistante, et localise l'apparition des défaillances pour identifier précisément l'origine de l'échec et sa chaîne d'impact. Pour permettre une évaluation systématique, nous avons constitué CodeTraceBench à partir d'un vaste ensemble de trajectoires exécutées générées par quatre frameworks d'agents de code largement utilisés sur diverses tâches de programmation (par exemple, correction de bogues, refactorisation et interaction avec le terminal), avec une supervision aux niveaux de l'étape et de la phase pour la localisation des défaillances. Les expériences montrent que CodeTracer surpasse substantiellement l'invocation directe et les méthodes de référence légères, et que la relecture de ses signaux diagnostiques permet de récupérer systématiquement les exécutions initialement échouées avec des budgets équivalents. Notre code et nos données sont publiquement disponibles.

English

Code agents are advancing rapidly, but debugging them is becoming increasingly difficult. As frameworks orchestrate parallel tool calls and multi-stage workflows over complex tasks, making the agent's state transitions and error propagation hard to observe. In these runs, an early misstep can trap the agent in unproductive loops or even cascade into fundamental errors, forming hidden error chains that make it hard to tell when the agent goes off track and why. Existing agent tracing analyses either focus on simple interaction or rely on small-scale manual inspection, which limits their scalability and usefulness for real coding workflows. We present CodeTracer, a tracing architecture that parses heterogeneous run artifacts through evolving extractors, reconstructs the full state transition history as a hierarchical trace tree with persistent memory, and performs failure onset localization to pinpoint the failure origin and its downstream chain. To enable systematic evaluation, we construct CodeTraceBench from a large collection of executed trajectories generated by four widely used code agent frameworks on diverse code tasks (e.g., bug fixing, refactoring, and terminal interaction), with supervision at both the stage and step levels for failure localization. Experiments show that CodeTracer substantially outperforms direct prompting and lightweight baselines, and that replaying its diagnostic signals consistently recovers originally failed runs under matched budgets. Our code and data are publicly available.

CodeTracer : Vers un suivi traçable des états de l'agent

CodeTracer: Towards Traceable Agent States

Résumé

Support