Agent libOS: Um Runtime Inspirado em Library-OS para Agentes LLM de Longa Duração e Controlados por Capacidades

Resumo

Os agentes de modelo de linguagem de grande escala (LLM) estão evoluindo de assistentes de solicitação-resposta para atores de software de longa duração: eles mantêm estado entre chamadas de modelo, bifurcam subtarefas, aguardam eventos externos, solicitam autorização humana, geram ferramentas e realizam efeitos colaterais que precisam ser retomados e auditados. Este artigo apresenta o Agent libOS, um substrato de runtime inspirado em sistema operacional de biblioteca para agentes LLM. O Agent libOS é executado acima de um sistema operacional hospedeiro convencional; ele não implementa drivers de hardware, isolamento em modo kernel ou um sistema operacional compatível com POSIX. Em vez disso, trata um agente como um AgentProcess: um sujeito de execução escalonável com identidade de processo, linhagem pai-filho, estado de ciclo de vida, uma tabela de ferramentas derivada de um AgentImage, Memória de Objetos tipada, capacidades explícitas, filas humanas, pontos de verificação, eventos e registros de auditoria. Sua regra central de design é que ferramentas são wrappers semelhantes à libc; primitivas de runtime constituem o limite de autoridade. Acesso ao sistema de arquivos, acesso a objetos, dormidas, aprovação humana, registro de ferramentas JIT e efeitos colaterais externos são verificados nos limites das primitivas sob capacidades e políticas explícitas. Descrevemos o design, o modelo de ameaça, o protótipo em Python e a avaliação orientada à segurança. O protótipo atual implementa escalonamento assíncrono, Memória de Objetos local ao namespace, aprovação humana integrada ao runtime, concessões de permissão únicas, diretórios de trabalho por processo, primitivas de shell e registro de imagem, ferramentas JIT Deno/TypeScript sobre um broker de chamadas de sistema do libOS, ferramentas de ponte entre sistema de arquivos/objetos, um Substrato Provedor de Recursos injetável, demonstrações determinísticas, scripts de fumaça com modelos reais e 123 testes de regressão no momento da redação. Em vez de melhorar a precisão do planejador, o Agent libOS demonstra um substrato de runtime no qual agentes LLM de longa duração podem ser escalonados, autorizados, retomados e auditados sem tratar o despacho de ferramentas como o limite de confiança.

English

Large language model (LLM) agents are evolving from request-response assistants into long-running software actors: they maintain state across model calls, fork subtasks, wait for external events, request human authority, generate tools, and perform side effects that must be resumed and audited. This paper presents Agent libOS, a library-OS-inspired runtime substrate for LLM agents. Agent libOS runs above a conventional host operating system; it does not implement hardware drivers, kernel-mode isolation, or a POSIX-compatible operating system. Instead, it treats an agent as an AgentProcess: a schedulable execution subject with process identity, parent-child lineage, lifecycle state, a tool table derived from an AgentImage, typed Object Memory, explicit capabilities, human queues, checkpoints, events, and audit records. Its central design rule is tools are libc-like wrappers; runtime primitives are the authority boundary. Filesystem access, object access, sleeps, human approval, JIT tool registration, and external side effects are checked at primitive boundaries under explicit capabilities and policy. We describe the design, threat model, Python prototype, and safety-oriented evaluation. The current prototype implements async scheduling, namespace-local Object Memory, runtime-integrated human approval, one-shot permission grants, per-process working directories, shell and image-registration primitives, Deno/TypeScript JIT tools over a libOS syscall broker, filesystem/object bridge tools, an injectable Resource Provider Substrate, deterministic demos, real-model smoke scripts, and 123 regression tests at the time of writing. Rather than improving planner accuracy, Agent libOS demonstrates a runtime substrate in which long-running LLM agents can be scheduled, authorized, resumed, and audited without treating tool dispatch as the trust boundary.