ChatPaper.aiChatPaper

SmartSnap: Búsqueda Proactiva de Evidencia para Agentes Autoverificadores

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

December 26, 2025
Autores: Shaofei Cai, Yulei Qin, Haojia Lin, Zihan Xu, Gang Li, Yuchen Shi, Zongyi Li, Yong Mao, Siqi Cai, Xiaoyu Tan, Yitao Liang, Ke Li, Xing Sun
cs.AI

Resumen

El aprendizaje por refuerzo agéntico (RL) presenta un gran potencial para el desarrollo de agentes autónomos en tareas complejas de interfaz gráfica de usuario (GUI), pero su escalabilidad se ve severamente limitada por la verificación del cumplimiento de la tarea. La verificación de tareas existente se trata como un proceso pasivo y *a posteriori*: un verificador (por ejemplo, un script de puntuación basado en reglas, un modelo de recompensa o crítico, o un LLM como juez) analiza la trayectoria de interacción completa del agente para determinar si tiene éxito. Este procesamiento de contextos verbosos que contienen historiales irrelevantes y ruidosos plantea desafíos a los protocolos de verificación y, por tanto, conlleva costos prohibitivos y baja fiabilidad. Para superar este cuello de botella, proponemos SmartSnap, un cambio de paradigma que pasa de esta verificación pasiva y *a posteriori* a una auto-verificación proactiva e *in situ* realizada por el propio agente. Introducimos el Agente Auto-Verificador, un nuevo tipo de agente diseñado con una doble misión: no solo completar una tarea, sino también demostrar su logro mediante evidencias seleccionadas en forma de instantáneas. Guiado por nuestros Principios 3C propuestos (Integridad, Concisión y Creatividad), el agente aprovecha su acceso al entorno online para realizar la auto-verificación sobre un conjunto mínimo y decisivo de instantáneas. Dichas evidencias se proporcionan como único material a un verificador general LLM-como-Juez para que determine su validez y relevancia. Los experimentos en tareas móviles realizados en diversas familias y escalas de modelos demuestran que nuestro paradigma SmartSnap permite entrenar agentes basados en LLM de manera escalable, logrando ganancias de rendimiento de hasta el 26.08% y el 16.66% para modelos de 8B y 30B respectivamente. La sinergia entre la búsqueda de soluciones y la búsqueda de evidencias facilita el desarrollo de agentes eficientes y auto-verificadores con un rendimiento competitivo frente a DeepSeek V3.1 y Qwen3-235B-A22B.
English
Agentic reinforcement learning (RL) holds great promise for the development of autonomous agents under complex GUI tasks, but its scalability remains severely hampered by the verification of task completion. Existing task verification is treated as a passive, post-hoc process: a verifier (i.e., rule-based scoring script, reward or critic model, and LLM-as-a-Judge) analyzes the agent's entire interaction trajectory to determine if the agent succeeds. Such processing of verbose context that contains irrelevant, noisy history poses challenges to the verification protocols and therefore leads to prohibitive cost and low reliability. To overcome this bottleneck, we propose SmartSnap, a paradigm shift from this passive, post-hoc verification to proactive, in-situ self-verification by the agent itself. We introduce the Self-Verifying Agent, a new type of agent designed with dual missions: to not only complete a task but also to prove its accomplishment with curated snapshot evidences. Guided by our proposed 3C Principles (Completeness, Conciseness, and Creativity), the agent leverages its accessibility to the online environment to perform self-verification on a minimal, decisive set of snapshots. Such evidences are provided as the sole materials for a general LLM-as-a-Judge verifier to determine their validity and relevance. Experiments on mobile tasks across model families and scales demonstrate that our SmartSnap paradigm allows training LLM-driven agents in a scalable manner, bringing performance gains up to 26.08% and 16.66% respectively to 8B and 30B models. The synergizing between solution finding and evidence seeking facilitates the cultivation of efficient, self-verifying agents with competitive performance against DeepSeek V3.1 and Qwen3-235B-A22B.
PDF332December 31, 2025