LedgerAgent: Estado estructurado para agentes de invocación de herramientas con cumplimiento de políticas

Resumen

Los agentes de llamada a herramientas que cumplen con políticas en dominios de atención al cliente deben mantener estados de tarea a lo largo de los turnos mientras invocan herramientas y respetan las políticas del dominio. Los estados de tarea consisten en hechos relevantes, identificadores, restricciones y condiciones observados a través de la interacción con el usuario y las llamadas a herramientas. En los agentes estándar, los estados de tarea no se representan de forma separada. Las observaciones, los resultados de las herramientas y las instrucciones de política se incluyen en el prompt, lo que obliga a los agentes a reconstruir los estados relevantes a partir del prompt cada vez que deciden qué hacer a continuación. Este diseño hace que la gestión de estados sea implícita, generando dos modos de fallo comunes. Un agente puede recuperar los hechos correctos, pero luego fundamentar su decisión en información desactualizada, faltante o incorrecta; y una llamada a herramienta sintácticamente válida puede violar una política del dominio que depende del estado actual de la tarea. Presentamos LedgerAgent, un método en tiempo de inferencia para agentes de llamada a herramientas que mantiene los estados de tarea observados en un registro separado e incorpora dichos estados en el prompt. El registro también se utiliza para verificar las restricciones de política dependientes del estado antes de ejecutar llamadas a herramientas que modifican el entorno, bloqueando así las violaciones de política. En cuatro dominios de atención al cliente y un panel mixto de modelos de peso abierto y cerrado, LedgerAgent mejora el passk promedio en comparación con un enfoque estándar de llamada a herramientas basado en prompt, con las mayores ganancias bajo métricas de consistencia de múltiples ensayos más estrictas.

English

Policy-adherent tool-calling agents in customer-service domains must maintain task states across turns while calling tools and obeying domain policies. Task states consist of relevant facts, identifiers, constraints, and conditions observed through user interaction and tool calls. In standard agents, task states are not represented separately. Observations, tool returns, and policy instructions are placed in the prompt, leaving agents to reconstruct the relevant states from the prompt each time they decide what to do next. This design makes state management implicit, creating two common failure modes. An agent may retrieve the right facts but later ground its decision in stale, missing, or incorrect information; and a syntactically valid tool call may still violate a domain policy that depends on the current task state. We introduce LedgerAgent, an inference-time method for tool-calling agents that maintains observed task states in a separate ledger and renders the states into the prompt. The ledger is also used to check state-dependent policy constraints before environment-changing tool calls are executed, blocking policy violations. Across four customer-service domains and a mixed panel of open- and closed-weight models, LedgerAgent improves average passk over a standard prompt-based tool-calling approach, with the largest gains under stricter multi-trial consistency metrics.