AgentFly: LLMエージェントのファインチューニングをLLM自体のファインチューニングなしで実現
AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
August 22, 2025
著者: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang
cs.AI
要旨
本論文では、基盤となる大規模言語モデル(LLM)のファインチューニングを必要としない、適応型LLMエージェントのための新しい学習パラダイムを提案する。既存のアプローチは、静的で手作業によるリフレクションワークフローに依存する硬直的なものか、LLMモデルパラメータの勾配更新を必要とする計算集約的なものが多い。これに対し、我々の手法は、メモリベースのオンライン強化学習を通じて低コストで継続的な適応を可能にする。これを、ニューラルケース選択ポリシーを備えたメモリ拡張マルコフ決定過程(M-MDP)として形式化する。過去の経験は、微分可能またはノンパラメトリックなエピソードメモリに保存される。ポリシーは、環境からのフィードバックに基づいてメモリ書き換えメカニズムを通じて継続的に更新され、効率的なメモリ読み取り(検索)を通じてポリシー改善が達成される。我々は、深層研究設定においてエージェントモデルを具体化し、AgentFlyとして実装した。これは、GAIA検証で87.88%のPass@3を達成し、テストセットでは79.40%を記録した。DeepResearcherデータセットでは66.6%のF1スコアと80.4%のPMを達成し、最先端のトレーニングベースの手法を上回り、ケースベースのメモリは分布外タスクで4.7%から9.6%の絶対ポイントを追加した。我々のアプローチは、勾配更新なしで継続的かつリアルタイムの学習が可能な汎用LLMエージェントを開発するためのスケーラブルで効率的な道筋を提供し、機械学習をオープンエンドのスキル獲得と深層研究シナリオに向けて前進させる。コードはhttps://github.com/Agent-on-the-Fly/AgentFlyで公開されている。
English
In this paper, we introduce a novel learning paradigm for adaptive Large
Language Model (LLM) agents that eliminates the need for fine-tuning the
underlying LLMs. Existing approaches are often either rigid, relying on static,
handcrafted reflection workflows, or computationally intensive, requiring
gradient updates of LLM model parameters. In contrast, our method enables
low-cost continual adaptation via memory-based online reinforcement learning.
We formalise this as a Memory-augmented Markov Decision Process (M-MDP),
equipped with a neural case-selection policy to guide action decisions. Past
experiences are stored in an episodic memory, either differentiable or
non-parametric. The policy is continually updated based on environmental
feedback through a memory rewriting mechanism, whereas policy improvement is
achieved through efficient memory reading (retrieval). We instantiate our agent
model in the deep research setting, namely AgentFly, which attains top-1 on
GAIA validation (87.88% Pass@3) and 79.40% on the test set. It reaches
66.6% F1 and 80.4% PM on the DeepResearcher dataset, outperforming the
state-of-the-art training-based method, while case-based memory adds 4.7% to
9.6% absolute points on out-of-distribution tasks. Our approach offers a
scalable and efficient pathway for developing generalist LLM agents capable of
continuous, real-time learning without gradient updates, advancing machine
learning towards open-ended skill acquisition and deep research scenarios. The
code is available at https://github.com/Agent-on-the-Fly/AgentFly.