ChatPaper.aiChatPaper

SmartSnap: 자체 검증 에이전트를 위한 능동적 증거 수집

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

December 26, 2025
저자: Shaofei Cai, Yulei Qin, Haojia Lin, Zihan Xu, Gang Li, Yuchen Shi, Zongyi Li, Yong Mao, Siqi Cai, Xiaoyu Tan, Yitao Liang, Ke Li, Xing Sun
cs.AI

초록

에이전트 강화학습(RL)은 복잡한 GUI 작업에서 자율 에이전트 개발에 큰 잠재력을 지니고 있지만, 작업 완료 검증의 어려움으로 인해 확장성이 심각하게 제한되고 있습니다. 기존의 작업 검증은 수동적이고 사후적인 과정으로 취급됩니다. 즉, 검증기(예: 규칙 기반 스코어링 스크립트, 보상/비평 모델, LLM-as-a-Judge)가 에이전트의 전체 상호작용 궤적을 분석하여 성공 여부를 판단합니다. 이러한 관련성 없고 잡음이 많은 장황한 맥락을 처리하는 방식은 검증 프로토콜에 도전 과제를 제기하며, 결국 감당하기 어려운 비용과 낮은 신뢰성으로 이어집니다. 이러한 병목 현상을 극복하기 위해, 우리는 기존의 수동적·사후적 검증에서 에이전트自身이 주도하는 능동적·현장 자기 검증으로의 패러다임 전환을 제안하는 SmartSnap을 제안합니다. 우리는 '자기 검증 에이전트'라는 새로운 유형의 에이전트를 소개합니다. 이 에이전트는 단순히 작업을 완료하는 것뿐만 아니라, 정성들여 선별한 스냅샷 증거를 통해 그 성취를 입증하는 이중 임무를 지닙니다. 우리가 제안하는 3C 원칙(완전성, 간결성, 창의성)의 지도 아래, 에이전트는 온라인 환경에 대한 접근성을 활용하여 최소한의 결정적인 스냅샷 집합에 대해 자기 검증을 수행합니다. 이러한 증거는 일반적인 LLM-as-a-Judge 검증기가 그 타당성과 관련성을 판단할 유일한 자료로 제공됩니다. 다양한 모델 패밀리와 규모의 모바일 작업에 대한 실험 결과, 우리의 SmartSnap 패러다임이 LLM 기반 에이전트를 확장 가능한 방식으로 훈련시키는 것을 가능하게 하며, 8B 및 30B 모델에 각각 최대 26.08%, 16.66%의 성능 향상을 가져온다는 것을 입증했습니다. 해결책 탐색과 증거 수집 사이의 시너지는 DeepSeek V3.1 및 Qwen3-235B-A22B 대비 경쟁력 있는 성능을 지닌 효율적인 자기 검증 에이전트의 육성을 가능하게 합니다.
English
Agentic reinforcement learning (RL) holds great promise for the development of autonomous agents under complex GUI tasks, but its scalability remains severely hampered by the verification of task completion. Existing task verification is treated as a passive, post-hoc process: a verifier (i.e., rule-based scoring script, reward or critic model, and LLM-as-a-Judge) analyzes the agent's entire interaction trajectory to determine if the agent succeeds. Such processing of verbose context that contains irrelevant, noisy history poses challenges to the verification protocols and therefore leads to prohibitive cost and low reliability. To overcome this bottleneck, we propose SmartSnap, a paradigm shift from this passive, post-hoc verification to proactive, in-situ self-verification by the agent itself. We introduce the Self-Verifying Agent, a new type of agent designed with dual missions: to not only complete a task but also to prove its accomplishment with curated snapshot evidences. Guided by our proposed 3C Principles (Completeness, Conciseness, and Creativity), the agent leverages its accessibility to the online environment to perform self-verification on a minimal, decisive set of snapshots. Such evidences are provided as the sole materials for a general LLM-as-a-Judge verifier to determine their validity and relevance. Experiments on mobile tasks across model families and scales demonstrate that our SmartSnap paradigm allows training LLM-driven agents in a scalable manner, bringing performance gains up to 26.08% and 16.66% respectively to 8B and 30B models. The synergizing between solution finding and evidence seeking facilitates the cultivation of efficient, self-verifying agents with competitive performance against DeepSeek V3.1 and Qwen3-235B-A22B.
PDF332December 31, 2025