CASCADE: Непрерывная адаптация больших языковых моделей на основе прецедентов во время развертывания

Аннотация

Крупные языковые модели (LLM) стали центральной основой современного искусственного интеллекта, однако их жизненный цикл остается ограниченным жестким разделением между обучением и развертыванием, после которого обучение фактически прекращается. Это ограничение контрастирует с естественным интеллектом, который постоянно адаптируется через взаимодействие с окружающей средой. В данной статье мы формализуем обучение во время развертывания (deployment-time learning, DTL) как третий этап жизненного цикла LLM, позволяющий LLM-агентам улучшать свои результаты на основе опыта, полученного в процессе развертывания, без изменения параметров модели. Мы представляем CASCADE (Case-based Continual Adaptation during Deployment — адаптация на основе прецедентов во время развертывания) — общую и принципиальную структуру, которая наделяет LLM-агентов явной, развивающейся эпизодической памятью. CASCADE формулирует повторное использование опыта как задачу контекстного бандита, что обеспечивает принципиальный компромисс между исследованием и эксплуатацией и устанавливает гарантии отсутствия сожаления при долгосрочных взаимодействиях. Такая конструкция позволяет агентам накапливать, отбирать и уточнять релевантные задаче прецеденты, превращая прошлый опыт в применимые знания. На 16 разнообразных задачах, охватывающих медицинскую диагностику, юридический анализ, генерацию кода, веб-поиск, использование инструментов и воплощенное взаимодействие, CASCADE улучшает макро-усредненный показатель успешности на 20,9% по сравнению с zero-shot промптингом, последовательно превосходя базовые методы, основанные на градиентах и памяти. Переосмысливая развертывание как адаптивный процесс обучения, данная работа закладывает основу для постоянно совершенствующихся систем искусственного интеллекта.

English

Large language models (LLMs) have become a central foundation of modern artificial intelligence, yet their lifecycle remains constrained by a rigid separation between training and deployment, after which learning effectively ceases. This limitation contrasts with natural intelligence, which continually adapts through interaction with its environment. In this paper, we formalise deployment-time learning (DTL) as the third stage in the LLM lifecycle that enables LLM agents to improve from experience during deployment without modifying model parameters. We present CASCADE (CASe-based Continual Adaptation during DEployment), a general and principled framework that equips LLM agents with an explicit, evolving episodic memory. CASCADE formulates experience reuse as a contextual bandit problem, enabling principled exploration-exploitation trade-offs and establishing no-regret guarantees over long-term interactions. This design allows agents to accumulate, select, and refine task-relevant cases, transforming past experience into actionable knowledge. Across 16 diverse tasks spanning medical diagnosis, legal analysis, code generation, web search, tool use, and embodied interaction, CASCADE improves macro-averaged success rate by 20.9% over zero-shot prompting while consistently outperforming gradient-based and memory-based baselines. By reframing deployment as an adaptive learning process, this work establishes a foundation for continually improving AI systems.

CASCADE: Непрерывная адаптация больших языковых моделей на основе прецедентов во время развертывания

CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment

Аннотация

Support