ChatPaper.aiChatPaper

Agent-Omit : Entraînement d'Agents LLM Efficaces pour l'Omission Adaptative de la Pensée et de l'Observation via l'Apprentissage par Renforcement Agentique

Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

February 4, 2026
papers.authors: Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu
cs.AI

papers.abstract

La gestion de la pensée et de l'observation des agents lors d'interactions multi-tours agent-environnement est une stratégie émergente pour améliorer l'efficacité des agents. Cependant, les études existantes traitent l'ensemble des trajectoires d'interaction de manière égale, négligeant le fait que la nécessité de la pensée et l'utilité de l'observation varient selon les tours. Pour cela, nous menons d'abord des investigations quantitatives sur la manière dont la pensée et l'observation affectent l'efficacité et le rendement des agents. Sur la base de nos résultats, nous proposons Agent-Omit, un cadre d'apprentissage unifié qui permet aux agents LLM d'omettre de manière adaptative les pensées et observations redondantes. Plus précisément, nous synthétisons d'abord une petite quantité de données de démarrage à froid, incluant des scénarios d'omission à tour unique et multi-tours, pour affiner le comportement d'omission de l'agent. De plus, nous introduisons une approche d'apprentissage par renforcement agentique sensible à l'omission, incorporant un mécanisme d'échantillonnage dual et une récompense d'omission sur mesure pour stimuler la capacité d'omission adaptative de l'agent. Théoriquement, nous prouvons que l'écart de notre politique d'omission est borné supérieurement par la divergence KL. Les résultats expérimentaux sur cinq benchmarks d'agents montrent que notre Agent-Omit-8B peut atteindre des performances comparables à sept agents LLM de pointe, et obtenir le meilleur compromis efficacité-rendement par rapport à sept méthodes d'agents LLM efficaces. Notre code et nos données sont disponibles à l'adresse https://github.com/usail-hkust/Agent-Omit.
English
Managing agent thought and observation during multi-turn agent-environment interactions is an emerging strategy to improve agent efficiency. However, existing studies treat the entire interaction trajectories equally, overlooking the thought necessity and observation utility varies across turns. To this end, we first conduct quantitative investigations into how thought and observation affect agent effectiveness and efficiency. Based on our findings, we propose Agent-Omit, a unified training framework that empowers LLM agents to adaptively omit redundant thoughts and observations. Specifically, we first synthesize a small amount of cold-start data, including both single-turn and multi-turn omission scenarios, to fine-tune the agent for omission behaviors. Furthermore, we introduce an omit-aware agentic reinforcement learning approach, incorporating a dual sampling mechanism and a tailored omission reward to incentivize the agent's adaptive omission capability. Theoretically, we prove that the deviation of our omission policy is upper-bounded by KL-divergence. Experimental results on five agent benchmarks show that our constructed Agent-Omit-8B could obtain performance comparable to seven frontier LLM agent, and achieve the best effectiveness-efficiency trade-off than seven efficient LLM agents methods. Our code and data are available at https://github.com/usail-hkust/Agent-Omit.
PDF122February 6, 2026