AgentFly: Feinabstimmung von LLM-Agenten ohne Feinabstimmung der LLMs

papers.abstract

In diesem Artikel stellen wir ein neuartiges Lernparadigma für adaptive Large Language Model (LLM)-Agenten vor, das die Notwendigkeit einer Feinabstimmung der zugrunde liegenden LLMs eliminiert. Bestehende Ansätze sind oft entweder starr, da sie auf statischen, manuell erstellten Reflexionsabläufen basieren, oder rechenintensiv, da sie Gradientenaktualisierungen der LLM-Modellparameter erfordern. Im Gegensatz dazu ermöglicht unsere Methode eine kostengünstige kontinuierliche Anpassung durch speicherbasiertes Online-Reinforcement-Learning. Wir formalisieren dies als einen speichergestützten Markov-Entscheidungsprozess (Memory-augmented Markov Decision Process, M-MDP), der mit einer neuronalen Fallauswahlpolitik ausgestattet ist, um Aktionsentscheidungen zu steuern. Vergangene Erfahrungen werden in einem episodischen Speicher gespeichert, der entweder differenzierbar oder nicht-parametrisch ist. Die Politik wird kontinuierlich basierend auf Umweltfeedback durch einen Speicherüberschreibungsmechanismus aktualisiert, während die Politikverbesserung durch effizientes Speicherlesen (Abruf) erreicht wird. Wir instanziieren unser Agentenmodell in der Deep-Research-Umgebung, nämlich AgentFly, das den ersten Platz in der GAIA-Validierung (87,88 % Pass@3) und 79,40 % im Testset erreicht. Es erzielt 66,6 % F1 und 80,4 % PM im DeepResearcher-Datensatz und übertrifft dabei die state-of-the-art Trainingsmethode, während der fallbasierte Speicher 4,7 % bis 9,6 % absolute Punkte bei Out-of-Distribution-Aufgaben hinzufügt. Unser Ansatz bietet einen skalierbaren und effizienten Weg zur Entwicklung von generalistischen LLM-Agenten, die in der Lage sind, kontinuierliches, Echtzeit-Lernen ohne Gradientenaktualisierungen zu ermöglichen, und fördert so das maschinelle Lernen in Richtung offener Fähigkeitserwerb und Deep-Research-Szenarien. Der Code ist verfügbar unter https://github.com/Agent-on-the-Fly/AgentFly.

English

In this paper, we introduce a novel learning paradigm for adaptive Large Language Model (LLM) agents that eliminates the need for fine-tuning the underlying LLMs. Existing approaches are often either rigid, relying on static, handcrafted reflection workflows, or computationally intensive, requiring gradient updates of LLM model parameters. In contrast, our method enables low-cost continual adaptation via memory-based online reinforcement learning. We formalise this as a Memory-augmented Markov Decision Process (M-MDP), equipped with a neural case-selection policy to guide action decisions. Past experiences are stored in an episodic memory, either differentiable or non-parametric. The policy is continually updated based on environmental feedback through a memory rewriting mechanism, whereas policy improvement is achieved through efficient memory reading (retrieval). We instantiate our agent model in the deep research setting, namely AgentFly, which attains top-1 on GAIA validation (87.88% Pass@3) and 79.40% on the test set. It reaches 66.6% F1 and 80.4% PM on the DeepResearcher dataset, outperforming the state-of-the-art training-based method, while case-based memory adds 4.7% to 9.6% absolute points on out-of-distribution tasks. Our approach offers a scalable and efficient pathway for developing generalist LLM agents capable of continuous, real-time learning without gradient updates, advancing machine learning towards open-ended skill acquisition and deep research scenarios. The code is available at https://github.com/Agent-on-the-Fly/AgentFly.

AgentFly: Feinabstimmung von LLM-Agenten ohne Feinabstimmung der LLMs

AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

papers.abstract

Support