Agent-Omit: Addestramento di Agenti LLM Efficienti per l'Omissione Adattiva di Pensieri e Osservazioni tramite Apprendimento per Rinforzo Agente-Centrico

Abstract

La gestione del pensiero e dell'osservazione dell'agente durante le interazioni multi-turno agente-ambiente è una strategia emergente per migliorare l'efficienza degli agenti. Tuttavia, gli studi esistenti trattano le traiettorie di interazione complete in modo uniforme, trascurando come la necessità di pensiero e l'utilità dell'osservazione varino tra i diversi turni. A tal fine, conduciamo prima indagini quantitative su come pensiero e osservazione influenzino l'efficacia e l'efficienza dell'agente. Sulla base dei nostri risultati, proponiamo Agent-Omit, un framework di training unificato che consente agli agenti LLM di omettere in modo adattivo pensieri e osservazioni ridondanti. Nello specifico, sintetizziamo prima una piccola quantità di dati di cold-start, inclusi scenari di omissione sia a turno singolo che multi-turno, per mettere a punto il comportamento di omissione dell'agente. Inoltre, introduciamo un approccio di reinforcement learning agentico aware dell'omissione, incorporando un meccanismo di campionamento duale e una ricompensa di omissione personalizzata per incentivare la capacità di omissione adattiva dell'agente. Teoricamente, dimostriamo che la deviazione della nostra politica di omissione è limitata superiormente dalla divergenza KL. I risultati sperimentali su cinque benchmark per agenti mostrano che il nostro Agent-Omit-8B può ottenere prestazioni comparabili a sette agenti LLM all'avanguardia e raggiungere il miglior compromesso efficacia-efficienza rispetto a sette metodi di agenti LLM efficienti. Il nostro codice e i nostri dati sono disponibili su https://github.com/usail-hkust/Agent-Omit.

English

Managing agent thought and observation during multi-turn agent-environment interactions is an emerging strategy to improve agent efficiency. However, existing studies treat the entire interaction trajectories equally, overlooking the thought necessity and observation utility varies across turns. To this end, we first conduct quantitative investigations into how thought and observation affect agent effectiveness and efficiency. Based on our findings, we propose Agent-Omit, a unified training framework that empowers LLM agents to adaptively omit redundant thoughts and observations. Specifically, we first synthesize a small amount of cold-start data, including both single-turn and multi-turn omission scenarios, to fine-tune the agent for omission behaviors. Furthermore, we introduce an omit-aware agentic reinforcement learning approach, incorporating a dual sampling mechanism and a tailored omission reward to incentivize the agent's adaptive omission capability. Theoretically, we prove that the deviation of our omission policy is upper-bounded by KL-divergence. Experimental results on five agent benchmarks show that our constructed Agent-Omit-8B could obtain performance comparable to seven frontier LLM agent, and achieve the best effectiveness-efficiency trade-off than seven efficient LLM agents methods. Our code and data are available at https://github.com/usail-hkust/Agent-Omit.

Agent-Omit: Addestramento di Agenti LLM Efficienti per l'Omissione Adattiva di Pensieri e Osservazioni tramite Apprendimento per Rinforzo Agente-Centrico

Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

Abstract

Support