AgentFly : Affinage des agents LLM sans affinage des LLM
AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
August 22, 2025
papers.authors: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang
cs.AI
papers.abstract
Dans cet article, nous introduisons un nouveau paradigme d'apprentissage pour les agents adaptatifs de modèles de langage de grande taille (LLM) qui élimine la nécessité de procéder à un ajustement fin des LLM sous-jacents. Les approches existantes sont souvent soit rigides, reposant sur des workflows de réflexion statiques et conçus manuellement, soit intensives en calcul, nécessitant des mises à jour par gradient des paramètres du modèle LLM. En revanche, notre méthode permet une adaptation continue à faible coût via un apprentissage par renforcement en ligne basé sur la mémoire. Nous formalisons cela sous la forme d'un processus de décision markovien augmenté par la mémoire (M-MDP), équipé d'une politique de sélection de cas neuronale pour guider les décisions d'action. Les expériences passées sont stockées dans une mémoire épisodique, soit différentiable, soit non paramétrique. La politique est continuellement mise à jour en fonction des retours d'expérience environnementaux grâce à un mécanisme de réécriture de la mémoire, tandis que l'amélioration de la politique est obtenue par une lecture efficace de la mémoire (récupération). Nous instancions notre modèle d'agent dans le cadre de la recherche approfondie, notamment AgentFly, qui atteint la première place sur la validation GAIA (87,88 % Pass@3) et 79,40 % sur l'ensemble de test. Il atteint 66,6 % de F1 et 80,4 % de PM sur le jeu de données DeepResearcher, surpassant la méthode basée sur l'entraînement de pointe, tandis que la mémoire basée sur les cas ajoute de 4,7 % à 9,6 % de points absolus sur les tâches hors distribution. Notre approche offre une voie évolutive et efficace pour développer des agents LLM généralistes capables d'un apprentissage continu en temps réel sans mises à jour par gradient, faisant progresser l'apprentissage automatique vers l'acquisition de compétences ouvertes et les scénarios de recherche approfondie. Le code est disponible à l'adresse https://github.com/Agent-on-the-Fly/AgentFly.
English
In this paper, we introduce a novel learning paradigm for adaptive Large
Language Model (LLM) agents that eliminates the need for fine-tuning the
underlying LLMs. Existing approaches are often either rigid, relying on static,
handcrafted reflection workflows, or computationally intensive, requiring
gradient updates of LLM model parameters. In contrast, our method enables
low-cost continual adaptation via memory-based online reinforcement learning.
We formalise this as a Memory-augmented Markov Decision Process (M-MDP),
equipped with a neural case-selection policy to guide action decisions. Past
experiences are stored in an episodic memory, either differentiable or
non-parametric. The policy is continually updated based on environmental
feedback through a memory rewriting mechanism, whereas policy improvement is
achieved through efficient memory reading (retrieval). We instantiate our agent
model in the deep research setting, namely AgentFly, which attains top-1 on
GAIA validation (87.88% Pass@3) and 79.40% on the test set. It reaches
66.6% F1 and 80.4% PM on the DeepResearcher dataset, outperforming the
state-of-the-art training-based method, while case-based memory adds 4.7% to
9.6% absolute points on out-of-distribution tasks. Our approach offers a
scalable and efficient pathway for developing generalist LLM agents capable of
continuous, real-time learning without gradient updates, advancing machine
learning towards open-ended skill acquisition and deep research scenarios. The
code is available at https://github.com/Agent-on-the-Fly/AgentFly.