Beter leren samenwerken met u: Gebruikerscorrecties omzetten in runtime-handhaving voor codeeragenten

Samenvatting

Interactieve LLM-agenten worden onderdeel van het dagelijkse werk, maar ze worden na verloop van tijd niet betrouwbaar gemakkelijker om mee te werken: een correctie die in één sessie wordt onthouden, kan in de volgende sessie nog steeds worden overtreden. Wij bestuderen deze kloof tussen preferentietoegang en preferentienaleving. In taken die zijn afgeleid van geanonimiseerde wrijvingsgevallen van echte gebruikers, laat Mem0-geheugen nog steeds 57,5% van de toepasselijke preferentiecontroles overtreden. Wij introduceren Test-time Rule Acquisition and Compiled Enforcement (TRACE), een drop-in skill-layer-pijplijn voor coding-agent runtimes die gebruikerscorrecties ontgint, ze herschrijft als atomische regels, en ze compileert tot runtime-controles die moeten worden doorstaan voordat een agent toekomstige taken voltooit. In tegenstelling tot runtime-controles die vooraf door ontwikkelaars zijn geschreven, komen TRACE-vaardigheden uit de eigen chatcorrecties van de gebruiker. Wij evalueren TRACE met gesimuleerde user-in-the-loop-experimenten op ClawArena-codeeragenttaken en van MemoryArena afgeleide geheugenintensieve taken. Op ClawArena vermindert TRACE de overtreding van uitgesloten preferenties van 100,0% naar 37,6% op binnen-verdelingstaken en van 100,0% naar 2,0% op buiten-verdelingstaken. Op van MemoryArena afgeleide taken vermindert TRACE de overtreding binnen de verdeling van 100,0% naar 60,5%, terwijl het de sterkste geheugenbaseline op taakpassing evenaart of overtreft. Deze resultaten suggereren dat het compileren van correcties in runtime-handhaving een herhaald wrijvingsfalen kan aanpakken dat geheugen alleen niet betrouwbaar oplost, waardoor de noodzaak voor gebruikers om dezelfde correctie in toekomstige sessies opnieuw te vermelden, wordt verminderd. De experimentcode is beschikbaar op https://github.com/YujunZhou/TRACE_exp, en de inzetbare vaardigheid is beschikbaar op https://github.com/YujunZhou/tellonce.

English

Interactive LLM agents are becoming part of daily work, but they do not reliably become easier to work with over time: a correction remembered in one session may still be violated in the next. We study this gap between preference access and preference compliance. In tasks derived from anonymized real-user friction cases, Mem0 memory still leaves 57.5% of applicable preference checks violated. We introduce Test-time Rule Acquisition and Compiled Enforcement (TRACE), a drop-in skill-layer pipeline for coding-agent runtimes that mines user corrections, rewrites them as atomic rules, and compiles them into runtime checks that must pass before an agent completes future tasks. Unlike runtime checks written ahead of time by developers, TRACE skills come from the user's own chat corrections. We evaluate TRACE with simulated user-in-the-loop experiments on ClawArena coding-agent tasks and MemoryArena-derived memory-intensive tasks. On ClawArena, TRACE reduces held-out preference violation from 100.0% to 37.6% on in-distribution tasks and from 100.0% to 2.0% on out-of-distribution tasks. On MemoryArena-derived tasks, TRACE reduces in-distribution violation from 100.0% to 60.5% while matching or exceeding the strongest memory baseline on task pass. These results suggest that compiling corrections into runtime enforcement can address a repeated-friction failure mode that memory alone does not reliably solve, reducing the need for users to restate the same correction across future sessions. Experiment code is available at https://github.com/YujunZhou/TRACE_exp, and the deployable skill is available at https://github.com/YujunZhou/tellonce.