AgentFly: Ajuste fino de agentes LLM sem ajuste fino dos LLMs
AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
August 22, 2025
Autores: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang
cs.AI
Resumo
Neste artigo, introduzimos um novo paradigma de aprendizagem para agentes adaptativos de Modelos de Linguagem de Grande Escala (LLMs) que elimina a necessidade de ajuste fino dos LLMs subjacentes. As abordagens existentes são frequentemente rígidas, dependendo de fluxos de trabalho de reflexão estáticos e manuais, ou computacionalmente intensivas, exigindo atualizações gradientes dos parâmetros do modelo LLM. Em contraste, nosso método permite uma adaptação contínua de baixo custo por meio de aprendizagem por reforço online baseada em memória. Formalizamos isso como um Processo de Decisão Markoviano Aumentado por Memória (M-MDP), equipado com uma política de seleção de casos neural para orientar as decisões de ação. Experiências passadas são armazenadas em uma memória episódica, seja diferenciável ou não paramétrica. A política é continuamente atualizada com base no feedback ambiental por meio de um mecanismo de reescrita de memória, enquanto a melhoria da política é alcançada por meio de uma leitura eficiente da memória (recuperação). Instanciamos nosso modelo de agente no cenário de pesquisa profunda, denominado AgentFly, que alcança o topo-1 na validação GAIA (87,88% Pass@3) e 79,40% no conjunto de teste. Ele atinge 66,6% F1 e 80,4% PM no conjunto de dados DeepResearcher, superando o método baseado em treinamento state-of-the-art, enquanto a memória baseada em casos adiciona de 4,7% a 9,6% pontos absolutos em tarefas fora da distribuição. Nossa abordagem oferece um caminho escalável e eficiente para o desenvolvimento de agentes LLM generalistas capazes de aprendizagem contínua e em tempo real sem atualizações gradientes, avançando o aprendizado de máquina em direção à aquisição de habilidades de forma aberta e cenários de pesquisa profunda. O código está disponível em https://github.com/Agent-on-the-Fly/AgentFly.
English
In this paper, we introduce a novel learning paradigm for adaptive Large
Language Model (LLM) agents that eliminates the need for fine-tuning the
underlying LLMs. Existing approaches are often either rigid, relying on static,
handcrafted reflection workflows, or computationally intensive, requiring
gradient updates of LLM model parameters. In contrast, our method enables
low-cost continual adaptation via memory-based online reinforcement learning.
We formalise this as a Memory-augmented Markov Decision Process (M-MDP),
equipped with a neural case-selection policy to guide action decisions. Past
experiences are stored in an episodic memory, either differentiable or
non-parametric. The policy is continually updated based on environmental
feedback through a memory rewriting mechanism, whereas policy improvement is
achieved through efficient memory reading (retrieval). We instantiate our agent
model in the deep research setting, namely AgentFly, which attains top-1 on
GAIA validation (87.88% Pass@3) and 79.40% on the test set. It reaches
66.6% F1 and 80.4% PM on the DeepResearcher dataset, outperforming the
state-of-the-art training-based method, while case-based memory adds 4.7% to
9.6% absolute points on out-of-distribution tasks. Our approach offers a
scalable and efficient pathway for developing generalist LLM agents capable of
continuous, real-time learning without gradient updates, advancing machine
learning towards open-ended skill acquisition and deep research scenarios. The
code is available at https://github.com/Agent-on-the-Fly/AgentFly.