ChatPaper.aiChatPaper

Agente-Omit: Treinamento de Agentes de LLM Eficientes para Omissão Adaptativa de Pensamento e Observação via Aprendizado por Reforço Agêntico

Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

February 4, 2026
Autores: Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu
cs.AI

Resumo

A gestão do pensamento e da observação do agente durante interações multi-turno entre agente e ambiente é uma estratégia emergente para melhorar a eficiência do agente. No entanto, os estudos existentes tratam todas as trajetórias de interação de forma igualitária, ignorando que a necessidade de pensamento e a utilidade da observação variam conforme o turno. Para isso, primeiro realizamos investigações quantitativas sobre como o pensamento e a observação afetam a eficácia e a eficiência do agente. Com base nas nossas descobertas, propomos o Agent-Omit, um framework de treinamento unificado que capacita agentes de LLM a omitir adaptativamente pensamentos e observações redundantes. Especificamente, primeiro sintetizamos uma pequena quantidade de dados de *cold-start*, incluindo cenários de omissão de turno único e multi-turno, para afinar o agente para comportamentos de omissão. Além disso, introduzimos uma abordagem de aprendizagem por reforço agentiva consciente da omissão, incorporando um mecanismo de amostragem dupla e uma recompensa de omissão personalizada para incentivar a capacidade de omissão adaptativa do agente. Teoricamente, provamos que o desvio da nossa política de omissão é limitado superiormente pela divergência KL. Resultados experimentais em cinco benchmarks de agentes mostram que o nosso Agent-Omit-8B construído pode obter um desempenho comparável a sete agentes de LLM de ponta e alcançar o melhor compromisso eficácia-eficiência do que sete métodos de agentes de LLM eficientes. O nosso código e dados estão disponíveis em https://github.com/usail-hkust/Agent-Omit.
English
Managing agent thought and observation during multi-turn agent-environment interactions is an emerging strategy to improve agent efficiency. However, existing studies treat the entire interaction trajectories equally, overlooking the thought necessity and observation utility varies across turns. To this end, we first conduct quantitative investigations into how thought and observation affect agent effectiveness and efficiency. Based on our findings, we propose Agent-Omit, a unified training framework that empowers LLM agents to adaptively omit redundant thoughts and observations. Specifically, we first synthesize a small amount of cold-start data, including both single-turn and multi-turn omission scenarios, to fine-tune the agent for omission behaviors. Furthermore, we introduce an omit-aware agentic reinforcement learning approach, incorporating a dual sampling mechanism and a tailored omission reward to incentivize the agent's adaptive omission capability. Theoretically, we prove that the deviation of our omission policy is upper-bounded by KL-divergence. Experimental results on five agent benchmarks show that our constructed Agent-Omit-8B could obtain performance comparable to seven frontier LLM agent, and achieve the best effectiveness-efficiency trade-off than seven efficient LLM agents methods. Our code and data are available at https://github.com/usail-hkust/Agent-Omit.
PDF122February 6, 2026