CASCADE: Adaptación Continua Basada en Casos para Modelos de Lenguaje a Gran Escala Durante su Despliegue

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han convertido en un pilar fundamental de la inteligencia artificial moderna, aunque su ciclo de vida sigue limitado por una separación rígida entre el entrenamiento y el despliegue, después del cual el aprendizaje efectivamente cesa. Esta limitación contrasta con la inteligencia natural, que se adapta continuamente mediante la interacción con su entorno. En este artículo, formalizamos el aprendizaje durante el despliegue (DTL, por sus siglas en inglés) como la tercera etapa del ciclo de vida de los LLMs, que permite a los agentes basados en estos modelos mejorar a partir de la experiencia durante el despliegue sin modificar los parámetros del modelo. Presentamos CASCADE (Adaptación Continua Basada en Casos durante el Despliegue), un marco general y fundamentado que dota a los agentes LLM de una memoria episódica explícita y en evolución. CASCADE formula la reutilización de la experiencia como un problema de bandido contextual, permitiendo equilibrios fundamentados entre exploración y explotación, así como garantías de no arrepentimiento en interacciones a largo plazo. Este diseño permite a los agentes acumular, seleccionar y refinar casos relevantes para la tarea, transformando la experiencia pasada en conocimiento accionable. En 16 tareas diversas que abarcan diagnóstico médico, análisis legal, generación de código, búsqueda web, uso de herramientas e interacción encarnada, CASCADE mejora la tasa de éxito promedio en un 20.9% frente al enfoque de cero disparos, superando consistentemente los métodos basados en gradientes y memoria. Al replantear el despliegue como un proceso de aprendizaje adaptativo, este trabajo sienta las bases para sistemas de IA que mejoran continuamente.

English

Large language models (LLMs) have become a central foundation of modern artificial intelligence, yet their lifecycle remains constrained by a rigid separation between training and deployment, after which learning effectively ceases. This limitation contrasts with natural intelligence, which continually adapts through interaction with its environment. In this paper, we formalise deployment-time learning (DTL) as the third stage in the LLM lifecycle that enables LLM agents to improve from experience during deployment without modifying model parameters. We present CASCADE (CASe-based Continual Adaptation during DEployment), a general and principled framework that equips LLM agents with an explicit, evolving episodic memory. CASCADE formulates experience reuse as a contextual bandit problem, enabling principled exploration-exploitation trade-offs and establishing no-regret guarantees over long-term interactions. This design allows agents to accumulate, select, and refine task-relevant cases, transforming past experience into actionable knowledge. Across 16 diverse tasks spanning medical diagnosis, legal analysis, code generation, web search, tool use, and embodied interaction, CASCADE improves macro-averaged success rate by 20.9% over zero-shot prompting while consistently outperforming gradient-based and memory-based baselines. By reframing deployment as an adaptive learning process, this work establishes a foundation for continually improving AI systems.

CASCADE: Adaptación Continua Basada en Casos para Modelos de Lenguaje a Gran Escala Durante su Despliegue

CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment

Resumen

Support