Améliorer la collaboration avec vous : Compilation des corrections utilisateur en application à l’exécution pour les agents de codage

Résumé

Les agents LLM interactifs deviennent partie intégrante du travail quotidien, mais ils ne deviennent pas systématiquement plus faciles à utiliser au fil du temps : une correction mémorisée dans une session peut encore être violée dans la suivante. Nous étudions cet écart entre l'accès aux préférences et leur respect. Dans des tâches dérivées de cas de friction réels anonymisés d'utilisateurs, la mémoire Mem0 laisse encore 57,5 % des vérifications de préférences applicables non respectées. Nous introduisons l'Acquisition de Règles au Moment du Test et l'Application Compilée (TRACE), un pipeline de couche de compétences enfichable pour les environnements d'exécution d'agents de codage qui extrait les corrections des utilisateurs, les reformule en règles atomiques et les compile en vérifications à l'exécution qui doivent être satisfaites avant qu'un agent n'achève les tâches futures. Contrairement aux vérifications à l'exécution écrites à l'avance par les développeurs, les compétences TRACE proviennent des corrections directes des utilisateurs dans le chat. Nous évaluons TRACE avec des expériences simulées avec intervention humaine sur les tâches d'agents de codage de ClawArena et les tâches à forte exigence mémoire dérivées de MemoryArena. Sur ClawArena, TRACE réduit la violation des préférences non observées de 100,0 % à 37,6 % sur les tâches intra-distribution et de 100,0 % à 2,0 % sur les tâches hors distribution. Sur les tâches dérivées de MemoryArena, TRACE réduit la violation intra-distribution de 100,0 % à 60,5 % tout en égalant ou dépassant la meilleure référence mémoire en taux de réussite des tâches. Ces résultats suggèrent que la compilation des corrections en une application à l'exécution peut remédier à un mode de défaillance par friction répétée que la mémoire seule ne résout pas de manière fiable, réduisant ainsi le besoin pour les utilisateurs de répéter la même correction dans des sessions futures. Le code des expériences est disponible à l'adresse https://github.com/YujunZhou/TRACE_exp, et la compétence déployable est disponible à l'adresse https://github.com/YujunZhou/tellonce.

English

Interactive LLM agents are becoming part of daily work, but they do not reliably become easier to work with over time: a correction remembered in one session may still be violated in the next. We study this gap between preference access and preference compliance. In tasks derived from anonymized real-user friction cases, Mem0 memory still leaves 57.5% of applicable preference checks violated. We introduce Test-time Rule Acquisition and Compiled Enforcement (TRACE), a drop-in skill-layer pipeline for coding-agent runtimes that mines user corrections, rewrites them as atomic rules, and compiles them into runtime checks that must pass before an agent completes future tasks. Unlike runtime checks written ahead of time by developers, TRACE skills come from the user's own chat corrections. We evaluate TRACE with simulated user-in-the-loop experiments on ClawArena coding-agent tasks and MemoryArena-derived memory-intensive tasks. On ClawArena, TRACE reduces held-out preference violation from 100.0% to 37.6% on in-distribution tasks and from 100.0% to 2.0% on out-of-distribution tasks. On MemoryArena-derived tasks, TRACE reduces in-distribution violation from 100.0% to 60.5% while matching or exceeding the strongest memory baseline on task pass. These results suggest that compiling corrections into runtime enforcement can address a repeated-friction failure mode that memory alone does not reliably solve, reducing the need for users to restate the same correction across future sessions. Experiment code is available at https://github.com/YujunZhou/TRACE_exp, and the deployable skill is available at https://github.com/YujunZhou/tellonce.