SmartSnap: Busca Proativa de Evidências para Agentes de Autoverificação
SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
December 26, 2025
Autores: Shaofei Cai, Yulei Qin, Haojia Lin, Zihan Xu, Gang Li, Yuchen Shi, Zongyi Li, Yong Mao, Siqi Cai, Xiaoyu Tan, Yitao Liang, Ke Li, Xing Sun
cs.AI
Resumo
O aprendizado por reforço agentivo (RL) apresenta grande potencial para o desenvolvimento de agentes autônomos em tarefas complexas de interface gráfica (GUI), mas sua escalabilidade continua severamente limitada pela verificação da conclusão das tarefas. A verificação de tarefas existente é tratada como um processo passivo e post-hoc: um verificador (ou seja, script de pontuação baseado em regras, modelo de recompensa ou crítico, e LLM-como-Juiz) analisa toda a trajetória de interação do agente para determinar se ele teve sucesso. Este processamento de contexto verboso, que contém histórico irrelevante e ruidoso, impõe desafios aos protocolos de verificação e, consequentemente, resulta em custos proibitivos e baixa confiabilidade.
Para superar este gargalo, propomos o SmartSnap, uma mudança de paradigma desta verificação passiva e post-hoc para uma auto-verificação proativa e in-situ realizada pelo próprio agente. Introduzimos o Agente Auto-Verificador, um novo tipo de agente projetado com uma missão dupla: não apenas completar uma tarefa, mas também comprovar sua realização com evidências curadas na forma de capturas de tela (snapshots). Guiado pelos nossos princípios 3C propostos (Completude, Concisão e Criatividade), o agente aproveita seu acesso ao ambiente online para realizar a auto-verificação com um conjunto mínimo e decisivo de snapshots. Tais evidências são fornecidas como os únicos materiais para um verificador geral do tipo LLM-como-Juiz determinar sua validade e relevância.
Experimentos com tarefas em dispositivos móveis, abrangendo diferentes famílias e escalas de modelos, demonstram que nosso paradigma SmartSnap permite treinar agentes baseados em LLM de maneira escalável, trazendo ganhos de desempenho de até 26,08% e 16,66% para modelos de 8B e 30B, respectivamente. A sinergia entre a busca pela solução e a busca por evidências facilita o cultivo de agentes eficientes e auto-verificadores com desempenho competitivo em comparação com o DeepSeek V3.1 e o Qwen3-235B-A22B.
English
Agentic reinforcement learning (RL) holds great promise for the development of autonomous agents under complex GUI tasks, but its scalability remains severely hampered by the verification of task completion. Existing task verification is treated as a passive, post-hoc process: a verifier (i.e., rule-based scoring script, reward or critic model, and LLM-as-a-Judge) analyzes the agent's entire interaction trajectory to determine if the agent succeeds. Such processing of verbose context that contains irrelevant, noisy history poses challenges to the verification protocols and therefore leads to prohibitive cost and low reliability. To overcome this bottleneck, we propose SmartSnap, a paradigm shift from this passive, post-hoc verification to proactive, in-situ self-verification by the agent itself. We introduce the Self-Verifying Agent, a new type of agent designed with dual missions: to not only complete a task but also to prove its accomplishment with curated snapshot evidences. Guided by our proposed 3C Principles (Completeness, Conciseness, and Creativity), the agent leverages its accessibility to the online environment to perform self-verification on a minimal, decisive set of snapshots. Such evidences are provided as the sole materials for a general LLM-as-a-Judge verifier to determine their validity and relevance. Experiments on mobile tasks across model families and scales demonstrate that our SmartSnap paradigm allows training LLM-driven agents in a scalable manner, bringing performance gains up to 26.08% and 16.66% respectively to 8B and 30B models. The synergizing between solution finding and evidence seeking facilitates the cultivation of efficient, self-verifying agents with competitive performance against DeepSeek V3.1 and Qwen3-235B-A22B.