Aprendendo a Explorar: Escalando Raciocínio Agentivo via Otimização de Políticas Ciente de Exploração

Resumo

Avanços recentes na escalabilidade de agentes em tempo de teste permitem que modelos coletem feedback ambiental antes de se comprometerem com ações finais. Uma limitação fundamental dos métodos existentes é que eles tipicamente empregam estratégias de exploração indiferenciadas, sem a capacidade de distinguir adaptativamente quando a exploração é realmente necessária. Neste artigo, propomos um framework de aprendizado por reforço sensível à exploração que capacita agentes baseados em LLM a explorar adaptativamente apenas quando a incerteza é alta. Nosso método introduz uma função de recompensa refinada via inferência variacional, que avalia explicitamente ações exploratórias estimando seu potencial para melhorar a tomada de decisão futura, juntamente com um mecanismo de agrupamento sensível à exploração que separa ações exploratórias de ações de conclusão de tarefas durante a otimização. Ao direcionar lacunas informacionais, esse design permite que agentes explorem seletivamente e transitem para a execução assim que o contexto da tarefa estiver claro. Empiricamente, demonstramos que nossa abordagem alcança melhorias consistentes em uma variedade de benchmarks desafiadores baseados em texto e em GUI. O código está disponível em https://github.com/HansenHua/EAPO-ICML26 e os modelos estão disponíveis em https://huggingface.co/hansenhua/EAPO-ICML26.

English

Recent advancements in agentic test-time scaling allow models to gather environmental feedback before committing to final actions. A key limitation of existing methods is that they typically employ undifferentiated exploration strategies, lacking the ability to adaptively distinguish when exploration is truly required. In this paper, we propose an exploration-aware reinforcement learning framework that enables LLM agents to adaptively explore only when uncertainty is high. Our method introduces a fine-grained reward function via variational inference that explicitly evaluates exploratory actions by estimating their potential to improve future decision-making, together with an exploration-aware grouping mechanism that separates exploratory actions from task-completion actions during optimization. By targeting informational gaps, this design allows agents to explore selectively and transition to execution as soon as the task context is clear. Empirically, we demonstrate that our approach achieves consistent improvements across a range of challenging text-based and GUI-based agent benchmarks. Code is available at https://github.com/HansenHua/EAPO-ICML26 and models are available at https://huggingface.co/hansenhua/EAPO-ICML26.