Agent-Omit: Training effizienter LLM-Agenten für adaptive Gedanken- und Beobachtungsauslassung durch agentisches Reinforcement Learning
Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning
February 4, 2026
papers.authors: Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu
cs.AI
papers.abstract
Die Steuerung von Agenten-Gedanken und -Beobachtungen während mehrstufiger Agent-Umgebungs-Interaktionen ist eine aufstrebende Strategie zur Verbesserung der Agenten-Effizienz. Bisherige Studien behandeln jedoch gesamte Interaktionsverläufe gleichwertig und übersehen, dass der Bedarf an Gedanken und der Nutzen von Beobachtungen über die einzelnen Stufen variieren. Daher untersuchen wir zunächst quantitativ, wie sich Gedanken und Beobachtungen auf die Wirksamkeit und Effizienz von Agenten auswirken. Aufbauend auf unseren Erkenntnissen schlagen wir Agent-Omit vor, ein einheitliches Trainingsframework, das LLM-Agenten befähigt, redundante Gedanken und Beobachtungen adaptiv auszulassen. Konkret synthetisieren wir zunächst eine kleine Menge von Cold-Start-Daten, die sowohl einstufige als auch mehrstufige Auslassungsszenarien umfassen, um den Agenten auf Auslassungsverhalten zu feinabstimmen. Darüber hinaus führen wir einen auslassungsbewussten agentenbasierten Verstärkungslernansatz ein, der einen dualen Sampling-Mechanismus und eine maßgeschneiderte Auslassungsbelohnung integriert, um die adaptive Auslassungsfähigkeit des Agenten zu fördern. Theoretisch beweisen wir, dass die Abweichung unserer Auslassungsstrategie durch die KL-Divergenz nach oben beschränkt ist. Experimentelle Ergebnisse auf fünf Agenten-Benchmarks zeigen, dass unser konstruierter Agent-Omit-8B eine mit sieben führenden LLM-Agenten vergleichbare Leistung erzielt und die beste Effektivitäts-Effizienz-Abwägung als sieben effiziente LLM-Agenten-Methoden erreicht. Unser Code und unsere Daten sind unter https://github.com/usail-hkust/Agent-Omit verfügbar.
English
Managing agent thought and observation during multi-turn agent-environment interactions is an emerging strategy to improve agent efficiency. However, existing studies treat the entire interaction trajectories equally, overlooking the thought necessity and observation utility varies across turns. To this end, we first conduct quantitative investigations into how thought and observation affect agent effectiveness and efficiency. Based on our findings, we propose Agent-Omit, a unified training framework that empowers LLM agents to adaptively omit redundant thoughts and observations. Specifically, we first synthesize a small amount of cold-start data, including both single-turn and multi-turn omission scenarios, to fine-tune the agent for omission behaviors. Furthermore, we introduce an omit-aware agentic reinforcement learning approach, incorporating a dual sampling mechanism and a tailored omission reward to incentivize the agent's adaptive omission capability. Theoretically, we prove that the deviation of our omission policy is upper-bounded by KL-divergence. Experimental results on five agent benchmarks show that our constructed Agent-Omit-8B could obtain performance comparable to seven frontier LLM agent, and achieve the best effectiveness-efficiency trade-off than seven efficient LLM agents methods. Our code and data are available at https://github.com/usail-hkust/Agent-Omit.