CASCADE : Adaptation continue à base de cas pour les grands modèles de langage lors du déploiement

Résumé

Les grands modèles de langage (LLMs) sont devenus un pilier central de l'intelligence artificielle moderne, mais leur cycle de vie reste contraint par une séparation rigide entre l'apprentissage et le déploiement, après quoi l'apprentissage cesse effectivement. Cette limitation contraste avec l'intelligence naturelle, qui s'adapte en permanence par l'interaction avec son environnement. Dans cet article, nous formalisons l'apprentissage en phase de déploiement (DTL) comme la troisième étape du cycle de vie des LLM, permettant aux agents LLM de s'améliorer grâce à l'expérience acquise lors du déploiement, sans modifier les paramètres du modèle. Nous présentons CASCADE (CASe-based Continual Adaptation during DEployment), un cadre général et fondé qui dote les agents LLM d'une mémoire épisodique explicite et évolutive. CASCADE formule la réutilisation de l'expérience comme un problème de bandit contextuel, permettant des compromis d'exploration-exploitation fondés et établissant des garanties de non-regret pour des interactions à long terme. Cette conception permet aux agents d'accumuler, de sélectionner et d'affiner des cas pertinents pour la tâche, transformant l'expérience passée en connaissances exploitables. Sur 16 tâches diverses couvrant le diagnostic médical, l'analyse juridique, la génération de code, la recherche web, l'utilisation d'outils et l'interaction incarnée, CASCADE améliore le taux de succès macro-moyenné de 20,9 % par rapport au prompting zéro-shot, tout en surpassant systématiquement les lignes de base basées sur le gradient et sur la mémoire. En reformulant le déploiement comme un processus d'apprentissage adaptatif, ce travail établit une base pour des systèmes d'IA en amélioration continue.

English

Large language models (LLMs) have become a central foundation of modern artificial intelligence, yet their lifecycle remains constrained by a rigid separation between training and deployment, after which learning effectively ceases. This limitation contrasts with natural intelligence, which continually adapts through interaction with its environment. In this paper, we formalise deployment-time learning (DTL) as the third stage in the LLM lifecycle that enables LLM agents to improve from experience during deployment without modifying model parameters. We present CASCADE (CASe-based Continual Adaptation during DEployment), a general and principled framework that equips LLM agents with an explicit, evolving episodic memory. CASCADE formulates experience reuse as a contextual bandit problem, enabling principled exploration-exploitation trade-offs and establishing no-regret guarantees over long-term interactions. This design allows agents to accumulate, select, and refine task-relevant cases, transforming past experience into actionable knowledge. Across 16 diverse tasks spanning medical diagnosis, legal analysis, code generation, web search, tool use, and embodied interaction, CASCADE improves macro-averaged success rate by 20.9% over zero-shot prompting while consistently outperforming gradient-based and memory-based baselines. By reframing deployment as an adaptive learning process, this work establishes a foundation for continually improving AI systems.