ChatPaper.aiChatPaper

Agente-Omit: Entrenamiento de Agentes de LLM Eficientes para la Omisión Adaptativa de Pensamiento y Observación mediante Aprendizaje por Refuerzo Agéntico

Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

February 4, 2026
Autores: Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu
cs.AI

Resumen

La gestión del pensamiento y la observación del agente durante las interacciones multi-turno agente-entorno es una estrategia emergente para mejorar la eficiencia del agente. Sin embargo, los estudios existentes tratan todas las trayectorias de interacción por igual, pasando por alto que la necesidad de pensamiento y la utilidad de la observación varían entre turnos. Para abordarlo, primero realizamos investigaciones cuantitativas sobre cómo el pensamiento y la observación afectan la efectividad y eficiencia del agente. Basándonos en nuestros hallazgos, proponemos Agent-Omit, un marco de entrenamiento unificado que permite a los agentes de LLM omitir adaptativamente pensamientos y observaciones redundantes. Específicamente, primero sintetizamos una pequeña cantidad de datos de arranque en frío, que incluyen escenarios de omisión tanto de un solo turno como multi-turno, para ajustar el agente hacia comportamientos de omisión. Además, introducimos un enfoque de aprendizaje por refuerzo agentico consciente de la omisión, incorporando un mecanismo de muestreo dual y una recompensa de omisión personalizada para incentivar la capacidad de omisión adaptativa del agente. Teóricamente, demostramos que la desviación de nuestra política de omisión está acotada superiormente por la divergencia KL. Los resultados experimentales en cinco benchmarks de agentes muestran que nuestro Agent-Omit-8B puede obtener un rendimiento comparable al de siete agentes LLM de vanguardia y lograr el mejor equilibrio entre efectividad y eficiencia que siete métodos de agentes LLM eficientes. Nuestro código y datos están disponibles en https://github.com/usail-hkust/Agent-Omit.
English
Managing agent thought and observation during multi-turn agent-environment interactions is an emerging strategy to improve agent efficiency. However, existing studies treat the entire interaction trajectories equally, overlooking the thought necessity and observation utility varies across turns. To this end, we first conduct quantitative investigations into how thought and observation affect agent effectiveness and efficiency. Based on our findings, we propose Agent-Omit, a unified training framework that empowers LLM agents to adaptively omit redundant thoughts and observations. Specifically, we first synthesize a small amount of cold-start data, including both single-turn and multi-turn omission scenarios, to fine-tune the agent for omission behaviors. Furthermore, we introduce an omit-aware agentic reinforcement learning approach, incorporating a dual sampling mechanism and a tailored omission reward to incentivize the agent's adaptive omission capability. Theoretically, we prove that the deviation of our omission policy is upper-bounded by KL-divergence. Experimental results on five agent benchmarks show that our constructed Agent-Omit-8B could obtain performance comparable to seven frontier LLM agent, and achieve the best effectiveness-efficiency trade-off than seven efficient LLM agents methods. Our code and data are available at https://github.com/usail-hkust/Agent-Omit.
PDF122February 6, 2026