AgentFly: Настройка агентов на основе больших языковых моделей без тонкой настройки самих моделей
AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
August 22, 2025
Авторы: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang
cs.AI
Аннотация
В данной статье мы представляем новую парадигму обучения для адаптивных агентов на основе больших языковых моделей (LLM), которая устраняет необходимость тонкой настройки базовых LLM. Существующие подходы часто либо жестко фиксированы, полагаясь на статические, вручную созданные рабочие процессы рефлексии, либо требуют значительных вычислительных ресурсов, включая обновление градиентов параметров модели LLM. В отличие от них, наш метод обеспечивает низкозатратную непрерывную адаптацию через обучение с подкреплением на основе памяти. Мы формализуем это как Марковский процесс принятия решений с расширенной памятью (M-MDP), оснащенный нейронной политикой выбора случаев для управления решениями о действиях. Прошлый опыт сохраняется в эпизодической памяти, которая может быть как дифференцируемой, так и непараметрической. Политика непрерывно обновляется на основе обратной связи от среды через механизм перезаписи памяти, а улучшение политики достигается за счет эффективного чтения (извлечения) памяти. Мы реализуем нашу модель агента в контексте глубоких исследований, а именно AgentFly, который достигает первого места на валидации GAIA (87,88% Pass@3) и 79,40% на тестовом наборе. Он показывает 66,6% F1 и 80,4% PM на наборе данных DeepResearcher, превосходя современный метод, основанный на обучении, при этом память на основе случаев добавляет от 4,7% до 9,6% абсолютных пунктов на задачах вне распределения. Наш подход предлагает масштабируемый и эффективный путь для разработки универсальных агентов LLM, способных к непрерывному обучению в реальном времени без обновления градиентов, продвигая машинное обучение в сторону открытого приобретения навыков и сценариев глубоких исследований. Код доступен по адресу https://github.com/Agent-on-the-Fly/AgentFly.
English
In this paper, we introduce a novel learning paradigm for adaptive Large
Language Model (LLM) agents that eliminates the need for fine-tuning the
underlying LLMs. Existing approaches are often either rigid, relying on static,
handcrafted reflection workflows, or computationally intensive, requiring
gradient updates of LLM model parameters. In contrast, our method enables
low-cost continual adaptation via memory-based online reinforcement learning.
We formalise this as a Memory-augmented Markov Decision Process (M-MDP),
equipped with a neural case-selection policy to guide action decisions. Past
experiences are stored in an episodic memory, either differentiable or
non-parametric. The policy is continually updated based on environmental
feedback through a memory rewriting mechanism, whereas policy improvement is
achieved through efficient memory reading (retrieval). We instantiate our agent
model in the deep research setting, namely AgentFly, which attains top-1 on
GAIA validation (87.88% Pass@3) and 79.40% on the test set. It reaches
66.6% F1 and 80.4% PM on the DeepResearcher dataset, outperforming the
state-of-the-art training-based method, while case-based memory adds 4.7% to
9.6% absolute points on out-of-distribution tasks. Our approach offers a
scalable and efficient pathway for developing generalist LLM agents capable of
continuous, real-time learning without gradient updates, advancing machine
learning towards open-ended skill acquisition and deep research scenarios. The
code is available at https://github.com/Agent-on-the-Fly/AgentFly.