AgentFly: LLM 파인튜닝 없이 LLM 에이전트 파인튜닝하기
AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
August 22, 2025
저자: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang
cs.AI
초록
본 논문에서는 기저 대형 언어 모델(LLM)의 미세 조정 없이도 적응 가능한 LLM 에이전트를 위한 새로운 학습 패러다임을 소개한다. 기존 접근법은 정적이고 수작업으로 설계된 반영 워크플로우에 의존하거나, LLM 모델 파라미터의 그래디언트 업데이트를 요구하는 등 경직적이거나 계산 비용이 많이 드는 경우가 많았다. 이에 반해, 우리의 방법은 메모리 기반 온라인 강화 학습을 통해 저비용의 지속적 적응을 가능하게 한다. 이를 메모리 증강 마르코프 결정 과정(M-MDP)으로 공식화하며, 행동 결정을 안내하는 신경망 기반 사례 선택 정책을 갖추고 있다. 과거 경험은 미분 가능하거나 비모수적인 에피소드 메모리에 저장된다. 정책은 환경 피드백을 통해 메모리 재작성 메커니즘에 의해 지속적으로 업데이트되며, 효율적인 메모리 읽기(검색)를 통해 정책 개선이 이루어진다. 우리는 에이전트 모델을 딥 리서치 환경, 즉 AgentFly로 구체화했으며, 이는 GAIA 검증에서 87.88% Pass@3로 1위를 차지했고 테스트 세트에서 79.40%를 달성했다. 또한 DeepResearcher 데이터셋에서 66.6% F1과 80.4% PM을 기록하여 최신 학습 기반 방법을 능가했으며, 사례 기반 메모리는 분포 외 작업에서 4.7%에서 9.6%의 절대적 점수 향상을 추가했다. 우리의 접근법은 그래디언트 업데이트 없이도 실시간 학습이 가능한 일반화된 LLM 에이전트 개발을 위한 확장 가능하고 효율적인 경로를 제공하며, 기계 학습을 개방형 기술 습득 및 딥 리서치 시나리오로 나아가게 한다. 코드는 https://github.com/Agent-on-the-Fly/AgentFly에서 확인할 수 있다.
English
In this paper, we introduce a novel learning paradigm for adaptive Large
Language Model (LLM) agents that eliminates the need for fine-tuning the
underlying LLMs. Existing approaches are often either rigid, relying on static,
handcrafted reflection workflows, or computationally intensive, requiring
gradient updates of LLM model parameters. In contrast, our method enables
low-cost continual adaptation via memory-based online reinforcement learning.
We formalise this as a Memory-augmented Markov Decision Process (M-MDP),
equipped with a neural case-selection policy to guide action decisions. Past
experiences are stored in an episodic memory, either differentiable or
non-parametric. The policy is continually updated based on environmental
feedback through a memory rewriting mechanism, whereas policy improvement is
achieved through efficient memory reading (retrieval). We instantiate our agent
model in the deep research setting, namely AgentFly, which attains top-1 on
GAIA validation (87.88% Pass@3) and 79.40% on the test set. It reaches
66.6% F1 and 80.4% PM on the DeepResearcher dataset, outperforming the
state-of-the-art training-based method, while case-based memory adds 4.7% to
9.6% absolute points on out-of-distribution tasks. Our approach offers a
scalable and efficient pathway for developing generalist LLM agents capable of
continuous, real-time learning without gradient updates, advancing machine
learning towards open-ended skill acquisition and deep research scenarios. The
code is available at https://github.com/Agent-on-the-Fly/AgentFly.