ET-Agent: Incentivizzare Agenti di Ragionamento con Strumenti Integrati tramite Calibrazione Comportamentale

Abstract

I Modelli Linguistici di Larga Scala (LLM) possono estendere i limiti delle conoscenze parametriche adottando il paradigma del Ragionamento con Integrazione di Strumenti (TIR). Tuttavia, gli attuali framework di addestramento per agenti basati su LLM si concentrano spesso sull'accuratezza delle risposte, tralasciando un allineamento specifico dei pattern comportamentali. Di conseguenza, l'agente spesso manifesta azioni inefficaci durante i compiti TIR, come chiamate a strumenti ridondanti o insufficienti. Calibrare i pattern comportamentali errati durante l'esecuzione di compiti TIR, esplorando così traiettorie efficaci, rimane un problema aperto. In questo articolo, proponiamo ET-Agent, un framework di addestramento per calibrare il comportamento d'uso degli strumenti dell'agente attraverso due prospettive sinergiche: Volano Dati Auto-evolutivo e Addestramento di Calibrazione Comportamentale. Nello specifico, introduciamo un volano dati auto-evolutivo per generare dati potenziati, utilizzati per affinare l'LLM e migliorarne la capacità esplorativa. Su questa base, implementiamo un framework di addestramento di calibrazione comportamentale a due fasi, progettato per correggere progressivamente i pattern comportamentali errati verso comportamenti ottimali. Esperimenti approfonditi confermano la superiorità multidimensionale del framework, inclusi correttezza, efficienza, concisione del ragionamento e accuratezza dell'esecuzione degli strumenti. Il nostro framework ET-Agent fornisce spunti pratici per la ricerca nel campo del TIR. I codici sono disponibili su https://github.com/asilverlight/ET-Agent.

English

Large Language Models (LLMs) can extend their parameter knowledge limits by adopting the Tool-Integrated Reasoning (TIR) paradigm. However, existing LLM-based agent training framework often focuses on answers' accuracy, overlooking specific alignment for behavior patterns. Consequently, agent often exhibits ineffective actions during TIR tasks, such as redundant and insufficient tool calls. How to calibrate erroneous behavioral patterns when executing TIR tasks, thereby exploring effective trajectories, remains an open-ended problem. In this paper, we propose ET-Agent, a training framework for calibrating agent's tool-use behavior through two synergistic perspectives: Self-evolving Data Flywheel and Behavior Calibration Training. Specifically, we introduce a self-evolutionary data flywheel to generate enhanced data, used to fine-tune LLM to improve its exploration ability. Based on this, we implement an two-phases behavior-calibration training framework. It is designed to progressively calibrate erroneous behavioral patterns to optimal behaviors. Further in-depth experiments confirm the superiority of across multiple dimensions, including correctness, efficiency, reasoning conciseness, and tool execution accuracy. Our ET-Agent framework provides practical insights for research in the TIR field. Codes can be found in https://github.com/asilverlight/ET-Agent

ET-Agent: Incentivizzare Agenti di Ragionamento con Strumenti Integrati tramite Calibrazione Comportamentale

ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

Abstract

Support