LedgerAgent: Структурированное состояние для агентов, вызывающих инструменты с соблюдением политик

Аннотация

Агенты, вызывающие инструменты с соблюдением политик в сферах обслуживания клиентов, должны поддерживать состояния задач на протяжении нескольких циклов взаимодействия, одновременно вызывая инструменты и следуя политикам домена. Состояния задач включают релевантные факты, идентификаторы, ограничения и условия, наблюдаемые в ходе взаимодействия с пользователем и вызовов инструментов. В стандартных агентах состояния задач не представлены отдельно. Наблюдения, результаты работы инструментов и инструкции политик помещаются в подсказку, оставляя агентам необходимость каждый раз заново восстанавливать релевантные состояния при принятии решения о следующем действии. Такая конструкция делает управление состояниями неявным, порождая два распространённых типа сбоев. Агент может извлечь верные факты, но затем обосновать своё решение устаревшей, отсутствующей или неверной информацией; синтаксически корректный вызов инструмента может нарушить политику домена, зависящую от текущего состояния задачи. Мы представляем LedgerAgent — метод времени вывода для агентов, вызывающих инструменты, который поддерживает наблюдаемые состояния задач в отдельном реестре и отображает эти состояния в подсказку. Реестр также используется для проверки зависящих от состояния ограничений политик перед выполнением вызовов инструментов, изменяющих окружение, блокируя нарушения политик. На четырёх доменах обслуживания клиентов и смешанной панели моделей с открытым и закрытым весом LedgerAgent улучшает средний показатель passk по сравнению со стандартным подходом вызова инструментов на основе подсказок, причём наибольший прирост наблюдается при более строгих метриках согласованности по нескольким попыткам.

English

Policy-adherent tool-calling agents in customer-service domains must maintain task states across turns while calling tools and obeying domain policies. Task states consist of relevant facts, identifiers, constraints, and conditions observed through user interaction and tool calls. In standard agents, task states are not represented separately. Observations, tool returns, and policy instructions are placed in the prompt, leaving agents to reconstruct the relevant states from the prompt each time they decide what to do next. This design makes state management implicit, creating two common failure modes. An agent may retrieve the right facts but later ground its decision in stale, missing, or incorrect information; and a syntactically valid tool call may still violate a domain policy that depends on the current task state. We introduce LedgerAgent, an inference-time method for tool-calling agents that maintains observed task states in a separate ledger and renders the states into the prompt. The ledger is also used to check state-dependent policy constraints before environment-changing tool calls are executed, blocking policy violations. Across four customer-service domains and a mixed panel of open- and closed-weight models, LedgerAgent improves average passk over a standard prompt-based tool-calling approach, with the largest gains under stricter multi-trial consistency metrics.