AgentFly: Ajuste fino de agentes LLM sin ajustar los LLM
AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
August 22, 2025
Autores: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang
cs.AI
Resumen
En este artículo, presentamos un nuevo paradigma de aprendizaje para agentes adaptativos de Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) que elimina la necesidad de ajustar finamente los LLM subyacentes. Los enfoques existentes suelen ser rígidos, basándose en flujos de trabajo de reflexión estáticos y manualmente diseñados, o computacionalmente intensivos, requiriendo actualizaciones de gradiente de los parámetros del modelo LLM. En contraste, nuestro método permite una adaptación continua de bajo costo mediante el aprendizaje por refuerzo en línea basado en memoria. Formalizamos esto como un Proceso de Decisión de Markov Aumentado con Memoria (M-MDP, por sus siglas en inglés), equipado con una política de selección de casos neuronal para guiar las decisiones de acción. Las experiencias pasadas se almacenan en una memoria episódica, ya sea diferenciable o no paramétrica. La política se actualiza continuamente basándose en la retroalimentación del entorno a través de un mecanismo de reescritura de memoria, mientras que la mejora de la política se logra mediante una lectura eficiente de la memoria (recuperación). Instanciamos nuestro modelo de agente en el entorno de investigación profunda, denominado AgentFly, que alcanza el primer puesto en la validación de GAIA (87.88% Pass@3) y un 79.40% en el conjunto de prueba. Alcanza un 66.6% de F1 y un 80.4% de PM en el conjunto de datos DeepResearcher, superando al método basado en entrenamiento más avanzado, mientras que la memoria basada en casos añade entre 4.7% y 9.6% puntos absolutos en tareas fuera de distribución. Nuestro enfoque ofrece una vía escalable y eficiente para desarrollar agentes LLM generalistas capaces de aprendizaje continuo en tiempo real sin actualizaciones de gradiente, avanzando en el aprendizaje automático hacia la adquisición de habilidades abiertas y escenarios de investigación profunda. El código está disponible en https://github.com/Agent-on-the-Fly/AgentFly.
English
In this paper, we introduce a novel learning paradigm for adaptive Large
Language Model (LLM) agents that eliminates the need for fine-tuning the
underlying LLMs. Existing approaches are often either rigid, relying on static,
handcrafted reflection workflows, or computationally intensive, requiring
gradient updates of LLM model parameters. In contrast, our method enables
low-cost continual adaptation via memory-based online reinforcement learning.
We formalise this as a Memory-augmented Markov Decision Process (M-MDP),
equipped with a neural case-selection policy to guide action decisions. Past
experiences are stored in an episodic memory, either differentiable or
non-parametric. The policy is continually updated based on environmental
feedback through a memory rewriting mechanism, whereas policy improvement is
achieved through efficient memory reading (retrieval). We instantiate our agent
model in the deep research setting, namely AgentFly, which attains top-1 on
GAIA validation (87.88% Pass@3) and 79.40% on the test set. It reaches
66.6% F1 and 80.4% PM on the DeepResearcher dataset, outperforming the
state-of-the-art training-based method, while case-based memory adds 4.7% to
9.6% absolute points on out-of-distribution tasks. Our approach offers a
scalable and efficient pathway for developing generalist LLM agents capable of
continuous, real-time learning without gradient updates, advancing machine
learning towards open-ended skill acquisition and deep research scenarios. The
code is available at https://github.com/Agent-on-the-Fly/AgentFly.