SmartSnap : Recherche proactive de preuves pour des agents auto-vérificateurs
SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
December 26, 2025
papers.authors: Shaofei Cai, Yulei Qin, Haojia Lin, Zihan Xu, Gang Li, Yuchen Shi, Zongyi Li, Yong Mao, Siqi Cai, Xiaoyu Tan, Yitao Liang, Ke Li, Xing Sun
cs.AI
papers.abstract
L'apprentissage par renforcement agentique (RL) présente un potentiel considérable pour le développement d'agents autonomes dans des tâches complexes sur interface graphique, mais son extensibilité reste sévèrement limitée par la vérification de l'achèvement des tâches. La vérification existante est traitée comme un processus passif et a posteriori : un vérificateur (par exemple, un script de notation basé sur des règles, un modèle de récompense ou critique, ou un LLM-comme-Juge) analyse la trajectoire d'interaction complète de l'agent pour déterminer son succès. Ce traitement d'un contexte verbeux contenant un historique parasite et non pertinent pose des défis aux protocoles de vérification, entraînant ainsi un coût prohibitif et une faible fiabilité. Pour surmonter ce goulot d'étranglement, nous proposons SmartSnap, un changement de paradigme passant d'une vérification passive et a posteriori à une auto-vérification proactive et in situ par l'agent lui-même. Nous introduisons l'Agent Auto-Vérificateur, un nouveau type d'agent conçu avec une double mission : non seulement accomplir une tâche, mais aussi prouver sa réalisation avec des preuves ciblées sous forme d'instantanés. Guidé par nos principes 3C proposés (Complétude, Concision et Créativité), l'agent utilise son accès à l'environnement en ligne pour effectuer une auto-vérification sur un ensemble minimal et décisif d'instantanés. Ces preuves sont fournies comme seuls éléments à un vérificateur général de type LLM-comme-Juge pour déterminer leur validité et leur pertinence. Les expériences sur des tâches mobiles, menées sur différentes familles et échelles de modèles, démontrent que notre paradigme SmartSnap permet d'entraîner des agents pilotés par LLM de manière extensible, apportant des gains de performance allant jusqu'à 26,08 % et 16,66 % respectivement pour des modèles de 8B et 30B. La synergie entre la recherche de solution et la quête de preuves facilite le développement d'agents auto-vérificateurs efficaces, affichant des performances compétitives face à DeepSeek V3.1 et Qwen3-235B-A22B.
English
Agentic reinforcement learning (RL) holds great promise for the development of autonomous agents under complex GUI tasks, but its scalability remains severely hampered by the verification of task completion. Existing task verification is treated as a passive, post-hoc process: a verifier (i.e., rule-based scoring script, reward or critic model, and LLM-as-a-Judge) analyzes the agent's entire interaction trajectory to determine if the agent succeeds. Such processing of verbose context that contains irrelevant, noisy history poses challenges to the verification protocols and therefore leads to prohibitive cost and low reliability. To overcome this bottleneck, we propose SmartSnap, a paradigm shift from this passive, post-hoc verification to proactive, in-situ self-verification by the agent itself. We introduce the Self-Verifying Agent, a new type of agent designed with dual missions: to not only complete a task but also to prove its accomplishment with curated snapshot evidences. Guided by our proposed 3C Principles (Completeness, Conciseness, and Creativity), the agent leverages its accessibility to the online environment to perform self-verification on a minimal, decisive set of snapshots. Such evidences are provided as the sole materials for a general LLM-as-a-Judge verifier to determine their validity and relevance. Experiments on mobile tasks across model families and scales demonstrate that our SmartSnap paradigm allows training LLM-driven agents in a scalable manner, bringing performance gains up to 26.08% and 16.66% respectively to 8B and 30B models. The synergizing between solution finding and evidence seeking facilitates the cultivation of efficient, self-verifying agents with competitive performance against DeepSeek V3.1 and Qwen3-235B-A22B.