AgentFly: Het afstemmen van LLM-agenten zonder het afstemmen van LLM's
AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
August 22, 2025
Auteurs: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang
cs.AI
Samenvatting
In dit artikel introduceren we een nieuw leerparadigma voor adaptieve Large Language Model (LLM)-agenten dat de noodzaak voor het finetunen van de onderliggende LLM's elimineert. Bestaande benaderingen zijn vaak rigide, waarbij ze vertrouwen op statische, handmatig gemaakte reflectiewerkstromen, of rekenintensief, omdat ze gradient-updates van LLM-modelparameters vereisen. In tegenstelling hiermee maakt onze methode goedkope continue aanpassing mogelijk via geheugen-gebaseerd online reinforcement learning. We formaliseren dit als een Memory-augmented Markov Decision Process (M-MDP), uitgerust met een neurale case-selectiebeleid om actiebeslissingen te sturen. Eerdere ervaringen worden opgeslagen in een episodisch geheugen, dat differentieerbaar of niet-parametrisch kan zijn. Het beleid wordt continu bijgewerkt op basis van omgevingsfeedback via een geheugenherschrijvingsmechanisme, terwijl beleidsverbetering wordt bereikt door efficiënt geheugenlezen (retrieval). We concretiseren ons agentmodel in de diepe onderzoekssetting, namelijk AgentFly, dat de top-1 positie behaalt op GAIA-validatie (87,88% Pass@3) en 79,40% op de testset. Het bereikt 66,6% F1 en 80,4% PM op de DeepResearcher-dataset, wat beter is dan de state-of-the-art trainingsgebaseerde methode, terwijl case-gebaseerd geheugen 4,7% tot 9,6% absolute punten toevoegt bij taken buiten de distributie. Onze benadering biedt een schaalbare en efficiënte weg voor het ontwikkelen van generalistische LLM-agenten die in staat zijn tot continue, real-time leren zonder gradient-updates, en brengt machine learning dichter bij open-ended vaardigheidsverwerving en diepe onderzoeksscenario's. De code is beschikbaar op https://github.com/Agent-on-the-Fly/AgentFly.
English
In this paper, we introduce a novel learning paradigm for adaptive Large
Language Model (LLM) agents that eliminates the need for fine-tuning the
underlying LLMs. Existing approaches are often either rigid, relying on static,
handcrafted reflection workflows, or computationally intensive, requiring
gradient updates of LLM model parameters. In contrast, our method enables
low-cost continual adaptation via memory-based online reinforcement learning.
We formalise this as a Memory-augmented Markov Decision Process (M-MDP),
equipped with a neural case-selection policy to guide action decisions. Past
experiences are stored in an episodic memory, either differentiable or
non-parametric. The policy is continually updated based on environmental
feedback through a memory rewriting mechanism, whereas policy improvement is
achieved through efficient memory reading (retrieval). We instantiate our agent
model in the deep research setting, namely AgentFly, which attains top-1 on
GAIA validation (87.88% Pass@3) and 79.40% on the test set. It reaches
66.6% F1 and 80.4% PM on the DeepResearcher dataset, outperforming the
state-of-the-art training-based method, while case-based memory adds 4.7% to
9.6% absolute points on out-of-distribution tasks. Our approach offers a
scalable and efficient pathway for developing generalist LLM agents capable of
continuous, real-time learning without gradient updates, advancing machine
learning towards open-ended skill acquisition and deep research scenarios. The
code is available at https://github.com/Agent-on-the-Fly/AgentFly.