SmartSnap: Proactief Zoeken naar Bewijs voor Zelfverificerende Agents
SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
December 26, 2025
Auteurs: Shaofei Cai, Yulei Qin, Haojia Lin, Zihan Xu, Gang Li, Yuchen Shi, Zongyi Li, Yong Mao, Siqi Cai, Xiaoyu Tan, Yitao Liang, Ke Li, Xing Sun
cs.AI
Samenvatting
Agentische reinforcement learning (RL) biedt grote beloften voor de ontwikkeling van autonome agents bij complexe GUI-taken, maar de schaalbaarheid ervan wordt ernstig belemmerd door de verificatie van taakvoltooiing. Bestaande taakverificatie wordt behandeld als een passief, achteraf proces: een verificator (zoals een rule-based scoringsscript, een belonings- of criticusmodel, of een LLM-as-a-Judge) analyseert de volledige interactietrajectorie van de agent om te bepalen of deze slaagt. Deze verwerking van uitgebreide context die irrelevante, ruisachtige historie bevat, stelt verificatieprotocollen voor uitdagingen en leidt daardoor tot onhoudbare kosten en lage betrouwbaarheid. Om dit knelpunt te overwinnen, stellen we SmartSnap voor, een paradigmaverschuiving van deze passieve, achteraf verificatie naar proactieve, in-situ zelfverificatie door de agent zelf. We introduceren de Self-Verifying Agent, een nieuw type agent ontworpen met een dubbele missie: niet alleen een taak voltooien, maar ook de voltooiing ervan aantonen met geselecteerde snapshotbewijzen. Geleid door onze voorgestelde 3C-principes (Volledigheid, Bondigheid en Creativiteit), benut de agent zijn toegang tot de online omgeving om zelfverificatie uit te voeren op een minimale, doorslaggevende set snapshots. Dergelijke bewijzen worden als enig materiaal aangeboden aan een algemene LLM-as-a-Judge verificator om hun geldigheid en relevantie te bepalen. Experimenten met mobiele taken across model families and scales tonen aan dat ons SmartSnap-paradigma het mogelijk maakt LLM-gestuurde agents op een schaalbare manier te trainen, wat prestatieverbeteringen tot respectievelijk 26,08% en 16,66% oplevert voor 8B- en 30B-modellen. De synergie tussen het vinden van oplossingen en het zoeken naar bewijzen vergemakkelijkt de ontwikkeling van efficiënte, zelfverificerende agents met competitieve prestaties ten opzichte van DeepSeek V3.1 en Qwen3-235B-A22B.
English
Agentic reinforcement learning (RL) holds great promise for the development of autonomous agents under complex GUI tasks, but its scalability remains severely hampered by the verification of task completion. Existing task verification is treated as a passive, post-hoc process: a verifier (i.e., rule-based scoring script, reward or critic model, and LLM-as-a-Judge) analyzes the agent's entire interaction trajectory to determine if the agent succeeds. Such processing of verbose context that contains irrelevant, noisy history poses challenges to the verification protocols and therefore leads to prohibitive cost and low reliability. To overcome this bottleneck, we propose SmartSnap, a paradigm shift from this passive, post-hoc verification to proactive, in-situ self-verification by the agent itself. We introduce the Self-Verifying Agent, a new type of agent designed with dual missions: to not only complete a task but also to prove its accomplishment with curated snapshot evidences. Guided by our proposed 3C Principles (Completeness, Conciseness, and Creativity), the agent leverages its accessibility to the online environment to perform self-verification on a minimal, decisive set of snapshots. Such evidences are provided as the sole materials for a general LLM-as-a-Judge verifier to determine their validity and relevance. Experiments on mobile tasks across model families and scales demonstrate that our SmartSnap paradigm allows training LLM-driven agents in a scalable manner, bringing performance gains up to 26.08% and 16.66% respectively to 8B and 30B models. The synergizing between solution finding and evidence seeking facilitates the cultivation of efficient, self-verifying agents with competitive performance against DeepSeek V3.1 and Qwen3-235B-A22B.