ChatPaper.aiChatPaper

Агент-Опущение: Обучение эффективных агентов больших языковых моделей для адаптивного пропуска мыслей и наблюдений с помощью агентного обучения с подкреплением

Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

February 4, 2026
Авторы: Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu
cs.AI

Аннотация

Управление мыслями и наблюдениями агента в ходе многошаговых взаимодействий агента со средой является перспективной стратегией повышения эффективности агентов. Однако существующие подходы рассматривают все траектории взаимодействия как равнозначные, игнорируя тот факт, что необходимость генерации мыслей и полезность наблюдений варьируется на разных шагах. В данной работе мы сначала проводим количественное исследование влияния мыслей и наблюдений на результативность и эффективность агента. На основе полученных результатов мы предлагаем Agent-Omit — унифицированную框架 обучения, которая позволяет LLM-агентам адаптивно пропускать избыточные мысли и наблюдения. В частности, мы сначала синтезируем небольшой объем стартовых данных, включающих сценарии пропуска как на одиночных, так и на многошаговых взаимодействиях, для тонкой настройки агента на поведение с пропусками. Кроме того, мы представляем подход агентного обучения с подкреплением с учетом пропусков, включающий механизм двойной выборки и специализированное вознаграждение за пропуск для стимулирования адаптивной способности агента к пропускам. Теоретически мы доказываем, что отклонение нашей политики пропусков ограничено сверху KL-дивергенцией. Эксперименты на пяти агентных бенчмарках показывают, что наш Agent-Omit-8B демонстрирует результативность, сопоставимую с семью передовыми LLM-агентами, и достигает наилучшего баланса между результативностью и эффективностью по сравнению с семью методами эффективных LLM-агентов. Наш код и данные доступны по адресу https://github.com/usail-hkust/Agent-Omit.
English
Managing agent thought and observation during multi-turn agent-environment interactions is an emerging strategy to improve agent efficiency. However, existing studies treat the entire interaction trajectories equally, overlooking the thought necessity and observation utility varies across turns. To this end, we first conduct quantitative investigations into how thought and observation affect agent effectiveness and efficiency. Based on our findings, we propose Agent-Omit, a unified training framework that empowers LLM agents to adaptively omit redundant thoughts and observations. Specifically, we first synthesize a small amount of cold-start data, including both single-turn and multi-turn omission scenarios, to fine-tune the agent for omission behaviors. Furthermore, we introduce an omit-aware agentic reinforcement learning approach, incorporating a dual sampling mechanism and a tailored omission reward to incentivize the agent's adaptive omission capability. Theoretically, we prove that the deviation of our omission policy is upper-bounded by KL-divergence. Experimental results on five agent benchmarks show that our constructed Agent-Omit-8B could obtain performance comparable to seven frontier LLM agent, and achieve the best effectiveness-efficiency trade-off than seven efficient LLM agents methods. Our code and data are available at https://github.com/usail-hkust/Agent-Omit.
PDF122February 6, 2026