Agent-Omit: Het Trainen van Efficiënte LLM-Agenten voor Adaptieve Gedachte- en Waarnemingsweglating via Agentische Versterkingsleren
Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning
February 4, 2026
Auteurs: Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu
cs.AI
Samenvatting
Het beheren van agentgedachten en observaties tijdens meerzijdige agent-omgeving interacties is een opkomende strategie om agentefficiëntie te verbeteren. Bestaande studies behandelen echter volledige interactietrajectoriaal als gelijkwaardig, waarbij wordt voorbijgegaan aan de variërende noodzaak van gedachten en het nut van observaties per interactieronde. Daartoe voeren we eerst kwantitatief onderzoek uit naar hoe gedachten en observaties agenteffectiviteit en -efficiëntie beïnvloeden. Op basis van onze bevindingen stellen we Agent-Omit voor, een uniform trainingsraamwerk dat LLM-agenten in staat stelt om redundante gedachten en observaties adaptief weg te laten. Specifiek synthetiseren we eerst een kleine hoeveelheid koude-startdata, inclusief zowel eenzijdige als meerzijdige weglatingsscenario's, om de agent af te stemmen op weglatingsgedrag. Verder introduceren we een weglatingsbewuste agentieve versterkingsleermethode, waarbij een duale steekproefmechanisme en een op maat gemaakte weglatingsbeloning worden geïntegreerd om het adaptieve weglatingsvermogen van de agent te stimuleren. Theoretisch bewijzen we dat de afwijking van ons weglatingsbeleid een bovengrens heeft in de vorm van KL-divergentie. Experimentele resultaten op vijf agentbenchmarks tonen aan dat onze geconstrueerde Agent-Omit-8B prestaties kan bereiken die vergelijkbaar zijn met zeven frontier LLM-agenten, en de beste effectiviteit-efficiëntie balans behaalt in vergelijking met zeven efficiënte LLM-agentmethoden. Onze code en data zijn beschikbaar op https://github.com/usail-hkust/Agent-Omit.
English
Managing agent thought and observation during multi-turn agent-environment interactions is an emerging strategy to improve agent efficiency. However, existing studies treat the entire interaction trajectories equally, overlooking the thought necessity and observation utility varies across turns. To this end, we first conduct quantitative investigations into how thought and observation affect agent effectiveness and efficiency. Based on our findings, we propose Agent-Omit, a unified training framework that empowers LLM agents to adaptively omit redundant thoughts and observations. Specifically, we first synthesize a small amount of cold-start data, including both single-turn and multi-turn omission scenarios, to fine-tune the agent for omission behaviors. Furthermore, we introduce an omit-aware agentic reinforcement learning approach, incorporating a dual sampling mechanism and a tailored omission reward to incentivize the agent's adaptive omission capability. Theoretically, we prove that the deviation of our omission policy is upper-bounded by KL-divergence. Experimental results on five agent benchmarks show that our constructed Agent-Omit-8B could obtain performance comparable to seven frontier LLM agent, and achieve the best effectiveness-efficiency trade-off than seven efficient LLM agents methods. Our code and data are available at https://github.com/usail-hkust/Agent-Omit.