ChatPaper.aiChatPaper

FLEX: Непрерывная эволюция агентов через прямое обучение на опыте

FLEX: Continuous Agent Evolution via Forward Learning from Experience

November 9, 2025
Авторы: Zhicheng Cai, Xinyuan Guo, Yu Pei, JiangTao Feng, Jiangjie Chen, Ya-Qin Zhang, Wei-Ying Ma, Mingxuan Wang, Hao Zhou
cs.AI

Аннотация

Автономные агенты, управляемые большими языковыми моделями (LLM), произвели революцию в рассуждениях и решении задач, но остаются статичными после обучения, неспособными развиваться с опытом, как это делают разумные существа, в процессе эксплуатации. Мы представляем Прямое Обучение на ОПыте (FLEX) — парадигму обучения без градиентов, которая позволяет агентам на основе LLM непрерывно эволюционировать за счет накопленного опыта. В частности, FLEX обеспечивает масштабируемую и наследуемую эволюцию за счет построения структурированной библиотеки опыта путем постоянной рефлексии над успехами и неудачами во время взаимодействия со средой. FLEX демонстрирует существенное улучшение результатов в математических рассуждениях, химическом ретросинтезе и предсказании фитнеса белков (до 23% на AIME25, 10% на USPTO50k и 14% на ProteinGym). Мы также выявляем четкий закон масштабирования опытного роста и феномен наследования опыта между агентами, что знаменует шаг к масштабируемой и наследуемой непрерывной эволюции агентов. Страница проекта: https://flex-gensi-thuair.github.io.
English
Autonomous agents driven by Large Language Models (LLMs) have revolutionized reasoning and problem-solving but remain static after training, unable to grow with experience as intelligent beings do during deployment. We introduce Forward Learning with EXperience (FLEX), a gradient-free learning paradigm that enables LLM agents to continuously evolve through accumulated experience. Specifically, FLEX cultivates scalable and inheritable evolution by constructing a structured experience library through continual reflection on successes and failures during interaction with the environment. FLEX delivers substantial improvements on mathematical reasoning, chemical retrosynthesis, and protein fitness prediction (up to 23% on AIME25, 10% on USPTO50k, and 14% on ProteinGym). We further identify a clear scaling law of experiential growth and the phenomenon of experience inheritance across agents, marking a step toward scalable and inheritable continuous agent evolution. Project Page: https://flex-gensi-thuair.github.io.
PDF112December 2, 2025