SmartSnap:自己検証エージェントのための積極的証拠探索
SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
December 26, 2025
著者: Shaofei Cai, Yulei Qin, Haojia Lin, Zihan Xu, Gang Li, Yuchen Shi, Zongyi Li, Yong Mao, Siqi Cai, Xiaoyu Tan, Yitao Liang, Ke Li, Xing Sun
cs.AI
要旨
エージェント的強化学習(RL)は複雑なGUIタスクにおける自律エージェントの開発において大きな可能性を秘めているが、その拡張性はタスク完了の検証によって深刻に阻害されている。既存のタスク検証は受動的・事後的なプロセスとして扱われている。すなわち、検証器(ルールベースの採点スクリプト、報酬または批評モデル、LLM-as-a-Judgeなど)がエージェントの全インタラクション軌跡を分析し、成功可否を判断する。このような、無関係でノイズの多い履歴を含む冗長な文脈の処理は、検証プロトコルに課題をもたらし、結果として許容し難いコストと低い信頼性を招いている。このボトルネックを克服するため、我々はSmartSnapを提案する。これは、受動的・事後的な検証から、エージェント自身による能動的・その場での自己検証へのパラダイム転換である。我々は、タスクを完了するだけでなく、精選されたスナップショット証拠を用いてその達成を証明するという二重の使命を持つ新しいタイプのエージェント、自己検証エージェントを導入する。提案する3C原則(完全性、簡潔性、創造性)に導かれて、エージェントはオンライン環境へのアクセス性を活用し、最小限かつ決定的なスナップショットの集合に対して自己検証を実行する。このような証拠は、一般的なLLM-as-a-Judge検証器がその有効性と関連性を判断するための唯一の材料として提供される。様々なモデルファミリーと規模にわたるモバイルタスクでの実験により、我々のSmartSnapパラダイムがLLM駆動エージェントの訓練を拡張可能な方法で可能にし、8Bモデルと30Bモデルに対してそれぞれ最大26.08%、16.66%の性能向上をもたらすことが実証された。解決策の発見と証拠の探索との相乗効果により、DeepSeek V3.1およびQwen3-235B-A22Bに対抗し得る競争力のある性能を持つ、効率的で自己検証可能なエージェントの育成が促進される。
English
Agentic reinforcement learning (RL) holds great promise for the development of autonomous agents under complex GUI tasks, but its scalability remains severely hampered by the verification of task completion. Existing task verification is treated as a passive, post-hoc process: a verifier (i.e., rule-based scoring script, reward or critic model, and LLM-as-a-Judge) analyzes the agent's entire interaction trajectory to determine if the agent succeeds. Such processing of verbose context that contains irrelevant, noisy history poses challenges to the verification protocols and therefore leads to prohibitive cost and low reliability. To overcome this bottleneck, we propose SmartSnap, a paradigm shift from this passive, post-hoc verification to proactive, in-situ self-verification by the agent itself. We introduce the Self-Verifying Agent, a new type of agent designed with dual missions: to not only complete a task but also to prove its accomplishment with curated snapshot evidences. Guided by our proposed 3C Principles (Completeness, Conciseness, and Creativity), the agent leverages its accessibility to the online environment to perform self-verification on a minimal, decisive set of snapshots. Such evidences are provided as the sole materials for a general LLM-as-a-Judge verifier to determine their validity and relevance. Experiments on mobile tasks across model families and scales demonstrate that our SmartSnap paradigm allows training LLM-driven agents in a scalable manner, bringing performance gains up to 26.08% and 16.66% respectively to 8B and 30B models. The synergizing between solution finding and evidence seeking facilitates the cultivation of efficient, self-verifying agents with competitive performance against DeepSeek V3.1 and Qwen3-235B-A22B.