AgentFly: Feinabstimmung von LLM-Agenten ohne Feinabstimmung der LLMs
AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
August 22, 2025
papers.authors: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang
cs.AI
papers.abstract
In diesem Artikel stellen wir ein neuartiges Lernparadigma für adaptive Large Language Model (LLM)-Agenten vor, das die Notwendigkeit einer Feinabstimmung der zugrunde liegenden LLMs eliminiert. Bestehende Ansätze sind oft entweder starr, da sie auf statischen, manuell erstellten Reflexionsabläufen basieren, oder rechenintensiv, da sie Gradientenaktualisierungen der LLM-Modellparameter erfordern. Im Gegensatz dazu ermöglicht unsere Methode eine kostengünstige kontinuierliche Anpassung durch speicherbasiertes Online-Reinforcement-Learning. Wir formalisieren dies als einen speichergestützten Markov-Entscheidungsprozess (Memory-augmented Markov Decision Process, M-MDP), der mit einer neuronalen Fallauswahlpolitik ausgestattet ist, um Aktionsentscheidungen zu steuern. Vergangene Erfahrungen werden in einem episodischen Speicher gespeichert, der entweder differenzierbar oder nicht-parametrisch ist. Die Politik wird kontinuierlich basierend auf Umweltfeedback durch einen Speicherüberschreibungsmechanismus aktualisiert, während die Politikverbesserung durch effizientes Speicherlesen (Abruf) erreicht wird. Wir instanziieren unser Agentenmodell in der Deep-Research-Umgebung, nämlich AgentFly, das den ersten Platz in der GAIA-Validierung (87,88 % Pass@3) und 79,40 % im Testset erreicht. Es erzielt 66,6 % F1 und 80,4 % PM im DeepResearcher-Datensatz und übertrifft dabei die state-of-the-art Trainingsmethode, während der fallbasierte Speicher 4,7 % bis 9,6 % absolute Punkte bei Out-of-Distribution-Aufgaben hinzufügt. Unser Ansatz bietet einen skalierbaren und effizienten Weg zur Entwicklung von generalistischen LLM-Agenten, die in der Lage sind, kontinuierliches, Echtzeit-Lernen ohne Gradientenaktualisierungen zu ermöglichen, und fördert so das maschinelle Lernen in Richtung offener Fähigkeitserwerb und Deep-Research-Szenarien. Der Code ist verfügbar unter https://github.com/Agent-on-the-Fly/AgentFly.
English
In this paper, we introduce a novel learning paradigm for adaptive Large
Language Model (LLM) agents that eliminates the need for fine-tuning the
underlying LLMs. Existing approaches are often either rigid, relying on static,
handcrafted reflection workflows, or computationally intensive, requiring
gradient updates of LLM model parameters. In contrast, our method enables
low-cost continual adaptation via memory-based online reinforcement learning.
We formalise this as a Memory-augmented Markov Decision Process (M-MDP),
equipped with a neural case-selection policy to guide action decisions. Past
experiences are stored in an episodic memory, either differentiable or
non-parametric. The policy is continually updated based on environmental
feedback through a memory rewriting mechanism, whereas policy improvement is
achieved through efficient memory reading (retrieval). We instantiate our agent
model in the deep research setting, namely AgentFly, which attains top-1 on
GAIA validation (87.88% Pass@3) and 79.40% on the test set. It reaches
66.6% F1 and 80.4% PM on the DeepResearcher dataset, outperforming the
state-of-the-art training-based method, while case-based memory adds 4.7% to
9.6% absolute points on out-of-distribution tasks. Our approach offers a
scalable and efficient pathway for developing generalist LLM agents capable of
continuous, real-time learning without gradient updates, advancing machine
learning towards open-ended skill acquisition and deep research scenarios. The
code is available at https://github.com/Agent-on-the-Fly/AgentFly.