AgentFly: Ottimizzazione degli Agenti LLM senza Ottimizzare gli LLM
AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
August 22, 2025
Autori: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang
cs.AI
Abstract
In questo articolo, introduciamo un nuovo paradigma di apprendimento per agenti adattivi basati su Large Language Model (LLM) che elimina la necessità di fine-tuning dei LLM sottostanti. Gli approcci esistenti sono spesso rigidi, basandosi su flussi di riflessione statici e manualmente progettati, o computazionalmente intensivi, richiedendo aggiornamenti dei gradienti dei parametri del modello LLM. Al contrario, il nostro metodo consente un adattamento continuo a basso costo attraverso l'apprendimento per rinforzo online basato sulla memoria. Formalizziamo questo come un Processo Decisionale di Markov Aumentato con Memoria (M-MDP), dotato di una politica neurale di selezione dei casi per guidare le decisioni sulle azioni. Le esperienze passate vengono memorizzate in una memoria episodica, differenziabile o non parametrica. La politica viene continuamente aggiornata in base ai feedback ambientali attraverso un meccanismo di riscrittura della memoria, mentre il miglioramento della politica viene ottenuto attraverso una lettura efficiente della memoria (recupero). Istanziamo il nostro modello di agente nel contesto della ricerca approfondita, denominato AgentFly, che raggiunge il primo posto nella validazione GAIA (87,88% Pass@3) e il 79,40% sul set di test. Ottiene il 66,6% F1 e l'80,4% PM sul dataset DeepResearcher, superando il metodo basato su addestramento più avanzato, mentre la memoria basata sui casi aggiunge dal 4,7% al 9,6% punti assoluti sui task fuori distribuzione. Il nostro approccio offre un percorso scalabile ed efficiente per sviluppare agenti LLM generalisti capaci di apprendimento continuo e in tempo reale senza aggiornamenti dei gradienti, avanzando verso l'acquisizione di competenze aperte e scenari di ricerca approfondita nel campo dell'apprendimento automatico. Il codice è disponibile all'indirizzo https://github.com/Agent-on-the-Fly/AgentFly.
English
In this paper, we introduce a novel learning paradigm for adaptive Large
Language Model (LLM) agents that eliminates the need for fine-tuning the
underlying LLMs. Existing approaches are often either rigid, relying on static,
handcrafted reflection workflows, or computationally intensive, requiring
gradient updates of LLM model parameters. In contrast, our method enables
low-cost continual adaptation via memory-based online reinforcement learning.
We formalise this as a Memory-augmented Markov Decision Process (M-MDP),
equipped with a neural case-selection policy to guide action decisions. Past
experiences are stored in an episodic memory, either differentiable or
non-parametric. The policy is continually updated based on environmental
feedback through a memory rewriting mechanism, whereas policy improvement is
achieved through efficient memory reading (retrieval). We instantiate our agent
model in the deep research setting, namely AgentFly, which attains top-1 on
GAIA validation (87.88% Pass@3) and 79.40% on the test set. It reaches
66.6% F1 and 80.4% PM on the DeepResearcher dataset, outperforming the
state-of-the-art training-based method, while case-based memory adds 4.7% to
9.6% absolute points on out-of-distribution tasks. Our approach offers a
scalable and efficient pathway for developing generalist LLM agents capable of
continuous, real-time learning without gradient updates, advancing machine
learning towards open-ended skill acquisition and deep research scenarios. The
code is available at https://github.com/Agent-on-the-Fly/AgentFly.