FLEX: Непрерывная эволюция агентов через прямое обучение на опыте
FLEX: Continuous Agent Evolution via Forward Learning from Experience
November 9, 2025
Авторы: Zhicheng Cai, Xinyuan Guo, Yu Pei, JiangTao Feng, Jiangjie Chen, Ya-Qin Zhang, Wei-Ying Ma, Mingxuan Wang, Hao Zhou
cs.AI
Аннотация
Автономные агенты, управляемые большими языковыми моделями (LLM), произвели революцию в рассуждениях и решении задач, но остаются статичными после обучения, неспособными развиваться с опытом, как это делают разумные существа, в процессе эксплуатации. Мы представляем Прямое Обучение на ОПыте (FLEX) — парадигму обучения без градиентов, которая позволяет агентам на основе LLM непрерывно эволюционировать за счет накопленного опыта. В частности, FLEX обеспечивает масштабируемую и наследуемую эволюцию за счет построения структурированной библиотеки опыта путем постоянной рефлексии над успехами и неудачами во время взаимодействия со средой. FLEX демонстрирует существенное улучшение результатов в математических рассуждениях, химическом ретросинтезе и предсказании фитнеса белков (до 23% на AIME25, 10% на USPTO50k и 14% на ProteinGym). Мы также выявляем четкий закон масштабирования опытного роста и феномен наследования опыта между агентами, что знаменует шаг к масштабируемой и наследуемой непрерывной эволюции агентов. Страница проекта: https://flex-gensi-thuair.github.io.
English
Autonomous agents driven by Large Language Models (LLMs) have revolutionized
reasoning and problem-solving but remain static after training, unable to grow
with experience as intelligent beings do during deployment. We introduce
Forward Learning with EXperience (FLEX), a gradient-free learning paradigm that
enables LLM agents to continuously evolve through accumulated experience.
Specifically, FLEX cultivates scalable and inheritable evolution by
constructing a structured experience library through continual reflection on
successes and failures during interaction with the environment. FLEX delivers
substantial improvements on mathematical reasoning, chemical retrosynthesis,
and protein fitness prediction (up to 23% on AIME25, 10% on USPTO50k, and 14%
on ProteinGym). We further identify a clear scaling law of experiential growth
and the phenomenon of experience inheritance across agents, marking a step
toward scalable and inheritable continuous agent evolution. Project Page:
https://flex-gensi-thuair.github.io.