ChatPaper.aiChatPaper

SmartSnap: Ricerca Proattiva di Prove per Agenti Auto-Verificanti

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

December 26, 2025
Autori: Shaofei Cai, Yulei Qin, Haojia Lin, Zihan Xu, Gang Li, Yuchen Shi, Zongyi Li, Yong Mao, Siqi Cai, Xiaoyu Tan, Yitao Liang, Ke Li, Xing Sun
cs.AI

Abstract

L'apprendimento per rinforzo agentico (RL) promette grandi progressi nello sviluppo di agenti autonomi per compiti complessi su interfaccia grafica (GUI), ma la sua scalabilità rimane fortemente limitata dalla verifica del completamento del compito. Le attuali metodologie di verifica sono trattate come processi passivi e a posteriori: un verificatore (ad esempio, script di valutazione basato su regole, modello di ricompensa o critico, o LLM come giudice) analizza l'intera traiettoria di interazione dell'agente per determinare il successo. Questo approccio, che elabora contesti verbosi contenenti storie irrilevanti e rumorose, pone sfide significative ai protocolli di verifica, risultando in costi proibitivi e bassa affidabilità. Per superare questo collo di bottiglia, proponiamo SmartSnap, un cambio di paradigma che passa dalla verifica passiva e a posteriori all'auto-verifica proattiva e in-situ da parte dell'agente stesso. Introduciamo l'Agente Auto-Verificante, un nuovo tipo di agente progettato con una doppia missione: non solo completare un compito, ma anche dimostrarne il raggiungimento attraverso evidenze selezionate (snapshot). Guidato dai nostri Principi 3C (Completezza, Concisione e Creatività), l'agente sfrutta il suo accesso all'ambiente online per eseguire l'auto-verifica su un insieme minimo e decisivo di snapshot. Queste evidenze costituiscono l'unico materiale fornito a un verificatore generico LLM come giudice per determinarne validità e rilevanza. Esperimenti su compiti mobili, condotti su diverse famiglie e scale di modelli, dimostrano che il nostro paradigma SmartSnap consente l'addestramento di agenti guidati da LLM in modo scalabile, apportando miglioramenti delle prestazioni fino al 26,08% e al 16,66% rispettivamente per modelli da 8B e 30B. La sinergia tra la ricerca della soluzione e la ricerca dell'evidenza facilita lo sviluppo di agenti efficienti e auto-verificanti con prestazioni competitive rispetto a DeepSeek V3.1 e Qwen3-235B-A22B.
English
Agentic reinforcement learning (RL) holds great promise for the development of autonomous agents under complex GUI tasks, but its scalability remains severely hampered by the verification of task completion. Existing task verification is treated as a passive, post-hoc process: a verifier (i.e., rule-based scoring script, reward or critic model, and LLM-as-a-Judge) analyzes the agent's entire interaction trajectory to determine if the agent succeeds. Such processing of verbose context that contains irrelevant, noisy history poses challenges to the verification protocols and therefore leads to prohibitive cost and low reliability. To overcome this bottleneck, we propose SmartSnap, a paradigm shift from this passive, post-hoc verification to proactive, in-situ self-verification by the agent itself. We introduce the Self-Verifying Agent, a new type of agent designed with dual missions: to not only complete a task but also to prove its accomplishment with curated snapshot evidences. Guided by our proposed 3C Principles (Completeness, Conciseness, and Creativity), the agent leverages its accessibility to the online environment to perform self-verification on a minimal, decisive set of snapshots. Such evidences are provided as the sole materials for a general LLM-as-a-Judge verifier to determine their validity and relevance. Experiments on mobile tasks across model families and scales demonstrate that our SmartSnap paradigm allows training LLM-driven agents in a scalable manner, bringing performance gains up to 26.08% and 16.66% respectively to 8B and 30B models. The synergizing between solution finding and evidence seeking facilitates the cultivation of efficient, self-verifying agents with competitive performance against DeepSeek V3.1 and Qwen3-235B-A22B.
PDF395March 11, 2026