ET-Agent: Incentivando Agentes Racionais com Integração de Ferramentas Eficazes por meio de Calibração Comportamental

Resumo

Os Grandes Modelos de Linguagem (LLMs) podem estender os seus limites de conhecimento de parâmetros ao adotar o paradigma de Raciocínio com Integração de Ferramentas (TIR). No entanto, os frameworks de treino de agentes baseados em LLM existentes focam-se frequentemente na precisão das respostas, negligenciando um alinhamento específico para os padrões de comportamento. Consequentemente, o agente exibe frequentemente ações ineficazes durante as tarefas TIR, como chamadas de ferramentas redundantes e insuficientes. Como calibrar os padrões comportamentais erróneos na execução de tarefas TIR, explorando assim trajetórias eficazes, permanece um problema em aberto. Neste artigo, propomos o ET-Agent, um framework de treino para calibrar o comportamento de uso de ferramentas do agente através de duas perspetivas sinérgicas: Roda de Dados de Auto-evolução e Treino de Calibração Comportamental. Especificamente, introduzimos uma roda de dados auto-evolutiva para gerar dados melhorados, usados para afinar o LLM e melhorar a sua capacidade de exploração. Com base nisto, implementamos um framework de treino de calibração comportamental em duas fases. Este foi concebido para calibrar progressivamente os padrões comportamentais erróneos para comportamentos ótimos. Experiências adicionais aprofundadas confirmam a superioridade do ET-Agent em múltiplas dimensões, incluindo correção, eficiência, concisão de raciocínio e precisão de execução de ferramentas. O nosso framework ET-Agent fornece perspetivas práticas para a investigação na área TIR. O código está disponível em https://github.com/asilverlight/ET-Agent.

English

Large Language Models (LLMs) can extend their parameter knowledge limits by adopting the Tool-Integrated Reasoning (TIR) paradigm. However, existing LLM-based agent training framework often focuses on answers' accuracy, overlooking specific alignment for behavior patterns. Consequently, agent often exhibits ineffective actions during TIR tasks, such as redundant and insufficient tool calls. How to calibrate erroneous behavioral patterns when executing TIR tasks, thereby exploring effective trajectories, remains an open-ended problem. In this paper, we propose ET-Agent, a training framework for calibrating agent's tool-use behavior through two synergistic perspectives: Self-evolving Data Flywheel and Behavior Calibration Training. Specifically, we introduce a self-evolutionary data flywheel to generate enhanced data, used to fine-tune LLM to improve its exploration ability. Based on this, we implement an two-phases behavior-calibration training framework. It is designed to progressively calibrate erroneous behavioral patterns to optimal behaviors. Further in-depth experiments confirm the superiority of across multiple dimensions, including correctness, efficiency, reasoning conciseness, and tool execution accuracy. Our ET-Agent framework provides practical insights for research in the TIR field. Codes can be found in https://github.com/asilverlight/ET-Agent

ET-Agent: Incentivando Agentes Racionais com Integração de Ferramentas Eficazes por meio de Calibração Comportamental

ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

Resumo

Support