ChatPaper.aiChatPaper

SmartSnap: Proaktive Beweissuche für selbstverifizierende Agenten

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

December 26, 2025
papers.authors: Shaofei Cai, Yulei Qin, Haojia Lin, Zihan Xu, Gang Li, Yuchen Shi, Zongyi Li, Yong Mao, Siqi Cai, Xiaoyu Tan, Yitao Liang, Ke Li, Xing Sun
cs.AI

papers.abstract

Agentisches Reinforcement Learning (RL) birgt großes Potenzial für die Entwicklung autonomer Agenten bei komplexen GUI-Aufgaben, doch seine Skalierbarkeit wird nach wie vor stark durch die Verifizierung des Aufgabenabschlusses eingeschränkt. Bisher wird die Aufgabenverifikation als passiver, nachträglicher Prozess behandelt: Ein Verifizierer (z.B. ein regelbasiertes Bewertungsskript, ein Belohnungs- oder Kritikermodell oder ein LLM-as-a-Judge) analysiert die gesamte Interaktionshistorie des Agenten, um zu bestimmen, ob der Agent erfolgreich war. Die Verarbeitung dieses umfangreichen Kontextes, der irrelevante und verrauschte Historie enthält, stellt Herausforderungen für die Verifikationsprotokolle dar und führt somit zu prohibitiv hohen Kosten und geringer Zuverlässigkeit. Um diesen Engpass zu überwinden, schlagen wir SmartSnap vor, einen Paradigmenwechsel von dieser passiven, nachträglichen Verifikation hin zu einer proaktiven, in-situ Selbstverifikation durch den Agenten selbst. Wir führen den selbstverifizierenden Agenten ein, eine neue Art von Agent, der mit einer doppelten Mission entworfen wurde: nicht nur eine Aufgabe zu erfüllen, sondern deren Erfüllung auch mit kuratierten Beweismomentaufnahmen zu belegen. Angeleitet durch unsere vorgeschlagenen 3C-Prinzipien (Vollständigkeit, Prägnanz und Kreativität) nutzt der Agent seinen Zugriff auf die Online-Umgebung, um eine Selbstverifikation auf Basis eines minimalen, entscheidenden Satzes von Momentaufnahmen durchzuführen. Diese Beweise werden als alleinige Grundlage für einen allgemeinen LLM-as-a-Judge-Verifizierer bereitgestellt, um deren Gültigkeit und Relevanz zu bestimmen. Experimente mit Mobilgeräte-Aufgaben über verschiedene Modellfamilien und -größen hinweg demonstrieren, dass unser SmartSnap- Paradigma es erlaubt, LLM-gesteuerte Agenten auf skalierbare Weise zu trainieren, was Leistungssteigerungen von bis zu 26,08 % bzw. 16,66 % für 8B- und 30B-Modelle bringt. Die Synergie zwischen Lösungsfindung und Beweissuche erleichtert die Entwicklung effizienter, selbstverifizierender Agenten mit wettbewerbsfähiger Leistung im Vergleich zu DeepSeek V3.1 und Qwen3-235B-A22B.
English
Agentic reinforcement learning (RL) holds great promise for the development of autonomous agents under complex GUI tasks, but its scalability remains severely hampered by the verification of task completion. Existing task verification is treated as a passive, post-hoc process: a verifier (i.e., rule-based scoring script, reward or critic model, and LLM-as-a-Judge) analyzes the agent's entire interaction trajectory to determine if the agent succeeds. Such processing of verbose context that contains irrelevant, noisy history poses challenges to the verification protocols and therefore leads to prohibitive cost and low reliability. To overcome this bottleneck, we propose SmartSnap, a paradigm shift from this passive, post-hoc verification to proactive, in-situ self-verification by the agent itself. We introduce the Self-Verifying Agent, a new type of agent designed with dual missions: to not only complete a task but also to prove its accomplishment with curated snapshot evidences. Guided by our proposed 3C Principles (Completeness, Conciseness, and Creativity), the agent leverages its accessibility to the online environment to perform self-verification on a minimal, decisive set of snapshots. Such evidences are provided as the sole materials for a general LLM-as-a-Judge verifier to determine their validity and relevance. Experiments on mobile tasks across model families and scales demonstrate that our SmartSnap paradigm allows training LLM-driven agents in a scalable manner, bringing performance gains up to 26.08% and 16.66% respectively to 8B and 30B models. The synergizing between solution finding and evidence seeking facilitates the cultivation of efficient, self-verifying agents with competitive performance against DeepSeek V3.1 and Qwen3-235B-A22B.
PDF332December 31, 2025