Sus agentes también envejecen: Ingeniería del ciclo de vida de los agentes para sistemas desplegados

Resumen

Los agentes de IA de larga duración se despliegan cada vez más como sistemas operativos persistentes, pero aún se evalúan como modelos recién inicializados. Los puntos de referencia del primer día omiten una pregunta básica de sistemas: ¿cuánto tiempo permanece fiable un agente tras su despliegue? Incluso cuando los pesos del modelo están congelados, el estado efectivo del agente sigue cambiando a medida que comprime el historial de interacciones, recupera información de un almacén de memoria en crecimiento, revisa hechos tras actualizaciones y se somete a mantenimiento rutinario. Por lo tanto, la fiabilidad se convierte en una propiedad de la vida útil del arnés completo del agente, y no solo en una propiedad instantánea del modelo base. Presentamos AgingBench, un punto de referencia longitudinal de fiabilidad para la ingeniería de la vida útil de los agentes: que mide no solo si los agentes desplegados se degradan, sino qué forma adopta la degradación y dónde debería centrarse la reparación. AgingBench organiza el envejecimiento de los agentes en cuatro mecanismos: envejecimiento por compresión, envejecimiento por interferencia, envejecimiento por revisión y envejecimiento por mantenimiento. Para diagnosticar estos fallos, AgingBench utiliza gráficos de dependencia temporal y sondas contrafactuales emparejadas que producen perfiles de diagnóstico para las etapas de escritura, recuperación y utilización del pipeline de memoria. A través de 7 escenarios, 14 modelos, múltiples políticas de memoria, y tanto agentes controlados por ejecutor como autónomos, más de ~400 ejecuciones que abarcan de 8 a 200 sesiones muestran que el envejecimiento de los agentes no es unidimensional: las pruebas conductuales pueden mantenerse limpias mientras la precisión factual se deteriora; el seguimiento de estados derivados puede colapsar bruscamente dentro de un solo modelo; y la misma respuesta incorrecta puede requerir reparaciones diferentes dependiendo de lo que indique el perfil de diagnóstico. Estos resultados sugieren que el despliegue fiable de agentes requiere evaluación de la vida útil, diagnóstico a nivel de mecanismo y reparación dirigida por etapa, no solo modelos más potentes desde el primer día.

English

Long-lived AI agents are increasingly deployed as persistent operational systems, yet they are still evaluated like freshly initialized models. Day-one benchmarks miss a basic systems question: how long does an agent remain reliable after deployment? Even when model weights are frozen, an agent's effective state keeps changing as it compresses interaction history, retrieves from a growing memory store, revises facts after updates, and undergoes routine maintenance. Reliability therefore becomes a lifespan property of the full agent harness, not only a snapshot property of the base model. We introduce AgingBench, a longitudinal reliability benchmark for agent lifespan engineering: measuring not only whether deployed agents degrade, but what form the degradation takes and where repair should target. AgingBench organizes agent aging into four mechanisms: compression aging, interference aging, revision aging, and maintenance aging. To diagnose these failures, AgingBench uses temporal dependency graphs and paired counterfactual probes that produce diagnostic profiles for the write, retrieval, and utilization stages of the memory pipeline. Across 7 scenarios, 14 models, multiple memory policies, and both runner-controlled and autonomous agents, over ~400 runs spanning 8 - 200 sessions show that agent aging is not one-dimensional: behavioral tests can remain clean while factual precision decays; derived-state tracking can collapse sharply within a single model; and the same wrong answer can require different repairs depending on what the diagnostic profile points to. These results suggest that reliable agent deployment requires lifespan evaluation, mechanism-level diagnosis, and stage-targeted repair, not only stronger day-one models.