Agent-Omit: エージェント的強化学習による適応的思考と観察省略のための効率的LLMエージェントの訓練
Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning
February 4, 2026
著者: Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu
cs.AI
要旨
マルチターンにおけるエージェントと環境の相互作用において、思考と観察を管理することは、エージェントの効率を改善する新たな戦略として注目されている。しかし、既存研究は相互作用の軌跡全体を均等に扱っており、各ターンによって思考の必要性や観察の有用性が異なる点を見落としている。そこで本研究ではまず、思考と観察がエージェントの有効性と効率に与える影響を定量的に調査する。得られた知見に基づき、我々はLLMエージェントが冗長な思考と観察を適応的に省略することを可能にする統一訓練フレームワーク「Agent-Omit」を提案する。具体的には、単一ターン及びマルチターンの省略シナリオを含む少量のコールドスタートデータを合成し、エージェントの省略行動に向けたファインチューニングを最初に行う。さらに、省略を意識したエージェント強化学習手法を導入し、デュアルサンプリング機構と独自設計の省略報酬を組み込むことで、エージェントの適応的省略能力を促進する。理論的には、我々の省略ポリシーの偏差がKLダイバージェンスによって上界が制限されることを証明する。5つのエージェントベンチマークによる実験結果から、構築したAgent-Omit-8Bは7つの先進的LLMエージェントと同等の性能を達成し、7つの効率的LLMエージェント手法よりも最高の有効性と効率のトレードオフを実現することを示す。コードとデータはhttps://github.com/usail-hkust/Agent-Omit で公開されている。
English
Managing agent thought and observation during multi-turn agent-environment interactions is an emerging strategy to improve agent efficiency. However, existing studies treat the entire interaction trajectories equally, overlooking the thought necessity and observation utility varies across turns. To this end, we first conduct quantitative investigations into how thought and observation affect agent effectiveness and efficiency. Based on our findings, we propose Agent-Omit, a unified training framework that empowers LLM agents to adaptively omit redundant thoughts and observations. Specifically, we first synthesize a small amount of cold-start data, including both single-turn and multi-turn omission scenarios, to fine-tune the agent for omission behaviors. Furthermore, we introduce an omit-aware agentic reinforcement learning approach, incorporating a dual sampling mechanism and a tailored omission reward to incentivize the agent's adaptive omission capability. Theoretically, we prove that the deviation of our omission policy is upper-bounded by KL-divergence. Experimental results on five agent benchmarks show that our constructed Agent-Omit-8B could obtain performance comparable to seven frontier LLM agent, and achieve the best effectiveness-efficiency trade-off than seven efficient LLM agents methods. Our code and data are available at https://github.com/usail-hkust/Agent-Omit.