ExpSeek: Busca de Experiência Autodisparada para Agentes da Web

Resumo

A intervenção por experiência em agentes web surge como um paradigma técnico promissor, aprimorando as capacidades de interação do agente ao fornecer insights valiosos a partir de experiências acumuladas. No entanto, os métodos existentes injetam experiência predominantemente de forma passiva como contexto global antes da execução da tarefa, lutando para se adaptar a observações contextuais dinamicamente mutáveis durante a interação agente-ambiente. Propomos o ExpSeek, que desloca a experiência para uma busca proativa em nível de etapa: (1) estimando limiares de entropia em nível de etapa para determinar o momento da intervenção usando os sinais intrínsecos do modelo; (2) projetando conteúdo de experiência personalizado em nível de etapa. Experimentos com os modelos Qwen3-8B e 32B em quatro benchmarks desafiadores para agentes web demonstram que o ExpSeek alcança melhorias absolutas de 9,3% e 7,5%, respectivamente. Nossos experimentos validam a viabilidade e as vantagens da entropia como um sinal de autoativação e revelam que mesmo um modelo de experiência de pequena escala (4B) pode impulsionar significativamente o desempenho de modelos de agente maiores.

English

Experience intervention in web agents emerges as a promising technical paradigm, enhancing agent interaction capabilities by providing valuable insights from accumulated experiences. However, existing methods predominantly inject experience passively as global context before task execution, struggling to adapt to dynamically changing contextual observations during agent-environment interaction. We propose ExpSeek, which shifts experience toward step-level proactive seeking: (1) estimating step-level entropy thresholds to determine intervention timing using the model's intrinsic signals; (2) designing step-level tailor-designed experience content. Experiments on Qwen3-8B and 32B models across four challenging web agent benchmarks demonstrate that ExpSeek achieves absolute improvements of 9.3% and 7.5%, respectively. Our experiments validate the feasibility and advantages of entropy as a self-triggering signal, reveal that even a 4B small-scale experience model can significantly boost the performance of larger agent models.