ChatPaper.aiChatPaper

ET-Agent: 행동 보정을 통한 효과적인 도구 통합 추론 에이전트 유인

ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

January 11, 2026
저자: Yifei Chen, Guanting Dong, Zhicheng Dou
cs.AI

초록

대규모 언어 모델(LLM)은 도구 통합 추론(TIR) 패러다임을 채택하여 매개변수 지식의 한계를 확장할 수 있습니다. 그러나 기존의 LLM 기반 에이전트 학습 프레임워크는 주로 답변의 정확성에 중점을 두어 행동 패턴에 대한 구체적인 정합성을 간과하는 경향이 있습니다. 그 결과, 에이전트는 TIR 작업 수행 중 중복적이거나 불충분한 도구 호출과 같은 비효율적인 행동을 보여주는 경우가 많습니다. TIR 작업 실행 시 발생하는 오류 행동 패턴을 어떻게 교정하여 효과적인 경로를 탐구할 것인지는 여전히 미해결 과제로 남아 있습니다. 본 논문에서는 자기 진화 데이터 플라이휠과 행동 교정 학습이라는 두 가지 상호 보완적 관점을 통해 에이전트의 도구 사용 행동을 교정하는 학습 프레임워크인 ET-Agent를 제안합니다. 구체적으로, 향상된 데이터를 생성하여 LLM의 미세 조정을 통해 탐구 능력을 향상시키는 자기 진화형 데이터 플라이휠을 도입합니다. 이를 기반으로 오류 행동 패턴을 최적 행동으로 점진적으로 교정하도록 설계된 2단계 행동 교정 학습 프레임워크를 구현합니다. 심층 실험을 통해 본 프레임워크가 정확성, 효율성, 추론의 간결성, 도구 실행 정확성 등 다차원적 측면에서 우수함을 입증하였습니다. 우리의 ET-Agent 프레임워크는 TIR 분야 연구에 실질적인 통찰을 제공합니다. 코드는 https://github.com/asilverlight/ET-Agent에서 확인할 수 있습니다.
English
Large Language Models (LLMs) can extend their parameter knowledge limits by adopting the Tool-Integrated Reasoning (TIR) paradigm. However, existing LLM-based agent training framework often focuses on answers' accuracy, overlooking specific alignment for behavior patterns. Consequently, agent often exhibits ineffective actions during TIR tasks, such as redundant and insufficient tool calls. How to calibrate erroneous behavioral patterns when executing TIR tasks, thereby exploring effective trajectories, remains an open-ended problem. In this paper, we propose ET-Agent, a training framework for calibrating agent's tool-use behavior through two synergistic perspectives: Self-evolving Data Flywheel and Behavior Calibration Training. Specifically, we introduce a self-evolutionary data flywheel to generate enhanced data, used to fine-tune LLM to improve its exploration ability. Based on this, we implement an two-phases behavior-calibration training framework. It is designed to progressively calibrate erroneous behavioral patterns to optimal behaviors. Further in-depth experiments confirm the superiority of across multiple dimensions, including correctness, efficiency, reasoning conciseness, and tool execution accuracy. Our ET-Agent framework provides practical insights for research in the TIR field. Codes can be found in https://github.com/asilverlight/ET-Agent
PDF163January 31, 2026