SmartSnap: Активный поиск доказательств для самопроверяющихся агентов
SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
December 26, 2025
Авторы: Shaofei Cai, Yulei Qin, Haojia Lin, Zihan Xu, Gang Li, Yuchen Shi, Zongyi Li, Yong Mao, Siqi Cai, Xiaoyu Tan, Yitao Liang, Ke Li, Xing Sun
cs.AI
Аннотация
Агентное обучение с подкреплением (RL) обладает значительным потенциалом для разработки автономных агентов, решающих сложные задачи в графическом интерфейсе, однако его масштабируемость остается серьезно ограниченной из-за проблемы верификации завершения задачи. Существующие методы проверки задач представляют собой пассивный, постфактум процесс: верификатор (например, правило-based скрипт оценки, модель вознаграждения или критик, LLM-as-a-Judge) анализирует всю траекторию взаимодействия агента, чтобы определить его успешность. Такая обработка пространного контекста, содержащего нерелевантную, зашумленную историю, создает проблемы для протоколов верификации и, как следствие, приводит к неприемлемо высокой стоимости и низкой надежности. Чтобы преодолеть это узкое место, мы предлагаем SmartSnap — парадигматический сдвиг от пассивной, постфактум верификации к проактивной, in-situ самоверификации со стороны самого агента. Мы представляем Самоверифицирующего Агента — новый тип агента, разработанный с двойной миссией: не только выполнить задачу, но и доказать ее выполнение с помощью тщательно отобранных свидетельств-снимков. Руководствуясь предложенными нами Принципами 3C (Полнота, Лаконичность и Креативность), агент использует свой доступ к онлайн-среде для проведения самоверификации на основе минимального, решающего набора снимков. Эти свидетельства предоставляются в качестве единственного материала для общего верификатора LLM-as-a-Judge, чтобы определить их достоверность и релевантность. Эксперименты на мобильных задачах для моделей различных семейств и масштабов демонстрируют, что наша парадигма SmartSnap позволяет обучать агентов на основе LLM масштабируемым образом, обеспечивая прирост производительности до 26,08% и 16,66% для моделей на 8B и 30B параметров соответственно. Синергия между поиском решения и сбором доказательств способствует формированию эффективных, самоверифицирующих агентов, демонстрирующих конкурентоспособные результаты в сравнении с DeepSeek V3.1 и Qwen3-235B-A22B.
English
Agentic reinforcement learning (RL) holds great promise for the development of autonomous agents under complex GUI tasks, but its scalability remains severely hampered by the verification of task completion. Existing task verification is treated as a passive, post-hoc process: a verifier (i.e., rule-based scoring script, reward or critic model, and LLM-as-a-Judge) analyzes the agent's entire interaction trajectory to determine if the agent succeeds. Such processing of verbose context that contains irrelevant, noisy history poses challenges to the verification protocols and therefore leads to prohibitive cost and low reliability. To overcome this bottleneck, we propose SmartSnap, a paradigm shift from this passive, post-hoc verification to proactive, in-situ self-verification by the agent itself. We introduce the Self-Verifying Agent, a new type of agent designed with dual missions: to not only complete a task but also to prove its accomplishment with curated snapshot evidences. Guided by our proposed 3C Principles (Completeness, Conciseness, and Creativity), the agent leverages its accessibility to the online environment to perform self-verification on a minimal, decisive set of snapshots. Such evidences are provided as the sole materials for a general LLM-as-a-Judge verifier to determine their validity and relevance. Experiments on mobile tasks across model families and scales demonstrate that our SmartSnap paradigm allows training LLM-driven agents in a scalable manner, bringing performance gains up to 26.08% and 16.66% respectively to 8B and 30B models. The synergizing between solution finding and evidence seeking facilitates the cultivation of efficient, self-verifying agents with competitive performance against DeepSeek V3.1 and Qwen3-235B-A22B.