Mejorando la colaboración con usted: Compilación de correcciones de usuario para la aplicación en tiempo de ejecución en agentes de codificación

Resumen

Los agentes LLM interactivos se están convirtiendo en parte del trabajo diario, pero no resultan de manera fiable más fáciles de usar con el tiempo: una corrección recordada en una sesión puede seguir siendo violada en la siguiente. Estudiamos esta brecha entre el acceso a preferencias y el cumplimiento de preferencias. En tareas derivadas de casos anónimos de fricción real de usuarios, la memoria de Mem0 aún deja un 57,5% de las comprobaciones de preferencias aplicables violadas. Presentamos Adquisición de Reglas en Tiempo de Prueba y Ejecución Compilada (TRACE), un canalización de capa de habilidades de inserción directa para entornos de ejecución de agentes de codificación que extrae correcciones del usuario, las reescribe como reglas atómicas y las compila en verificaciones en tiempo de ejecución que deben cumplirse antes de que un agente complete tareas futuras. A diferencia de las verificaciones en tiempo de ejecución escritas de antemano por los desarrolladores, las habilidades de TRACE provienen de las propias correcciones de chat del usuario. Evaluamos TRACE con experimentos simulados de usuario en el bucle en tareas de agente de codificación de ClawArena y tareas intensivas en memoria derivadas de MemoryArena. En ClawArena, TRACE reduce la violación de preferencias fuera de muestra del 100,0% al 37,6% en tareas dentro de la distribución y del 100,0% al 2,0% en tareas fuera de la distribución. En tareas derivadas de MemoryArena, TRACE reduce la violación dentro de la distribución del 100,0% al 60,5%, igualando o superando la línea base de memoria más fuerte en el éxito de la tarea. Estos resultados sugieren que compilar correcciones en ejecución en tiempo de ejecución puede abordar un modo de fallo por fricción repetida que la memoria por sí sola no resuelve de manera fiable, reduciendo la necesidad de que los usuarios repitan la misma corrección en sesiones futuras. El código del experimento está disponible en https://github.com/YujunZhou/TRACE_exp, y la habilidad desplegable está disponible en https://github.com/YujunZhou/tellonce.

English

Interactive LLM agents are becoming part of daily work, but they do not reliably become easier to work with over time: a correction remembered in one session may still be violated in the next. We study this gap between preference access and preference compliance. In tasks derived from anonymized real-user friction cases, Mem0 memory still leaves 57.5% of applicable preference checks violated. We introduce Test-time Rule Acquisition and Compiled Enforcement (TRACE), a drop-in skill-layer pipeline for coding-agent runtimes that mines user corrections, rewrites them as atomic rules, and compiles them into runtime checks that must pass before an agent completes future tasks. Unlike runtime checks written ahead of time by developers, TRACE skills come from the user's own chat corrections. We evaluate TRACE with simulated user-in-the-loop experiments on ClawArena coding-agent tasks and MemoryArena-derived memory-intensive tasks. On ClawArena, TRACE reduces held-out preference violation from 100.0% to 37.6% on in-distribution tasks and from 100.0% to 2.0% on out-of-distribution tasks. On MemoryArena-derived tasks, TRACE reduces in-distribution violation from 100.0% to 60.5% while matching or exceeding the strongest memory baseline on task pass. These results suggest that compiling corrections into runtime enforcement can address a repeated-friction failure mode that memory alone does not reliably solve, reducing the need for users to restate the same correction across future sessions. Experiment code is available at https://github.com/YujunZhou/TRACE_exp, and the deployable skill is available at https://github.com/YujunZhou/tellonce.