ChatPaper.aiChatPaper

SSL: エージェント最適化における差別化ガイダンスのためのスイートスポット学習

SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

January 30, 2026
著者: Jinyang Wu, Changpeng Yang, Yuhao Shen, Fangzhi Xu, Bolin Ni, Chonghua Liao, Yuchen Liu, Hongzhen Wang, Shuai Nie, Shuai Zhang, Haoran Luo, Jiaming Xu
cs.AI

要旨

検証可能な報酬を用いた強化学習は、知的エージェントを訓練する強力なパラダイムとして登場した。しかし、既存手法では一般に二値報酬が用いられ、同一の結果を達成する軌道間の質的差異を捉えられず、解空間内の潜在的多様性を見過ごしている。テニスにおける「スイートスポット」概念(最適な打撃効果を生み出すラケットの中心領域)に着想を得て、我々はエージェント最適化に差別化的な指針を提供する新規フレームワーク「Sweet Spot Learning (SSL)」を提案する。SSLは単純かつ効果的な原理に従う:段階的に増幅される階層化報酬が、解空間のスイートスポット領域へ向けて方策を導く。この原理は多様なタスクに自然に適応する:視覚認識タスクでは距離に基づく階層化モデリングにより近接を報酬とし、複雑な推論タスクでは有望な解への漸進的進捗を報酬とする。理論的に、SSLが最適解の順序付けを保存し、勾配の信号対雑音比を改善することで、より方向性のある最適化を促進することを示す。GUI認識、短期/長期計画、複雑な推論タスクにわたる広範な実験により、12のベンチマークで強力なベースラインを一貫して上回る改善が確認され、最大2.5倍のサンプル効率向上と効果的なタスク間転移性を達成した。本研究は、SSLを有能かつ頑健なエージェントを訓練するための普遍的原理として確立する。
English
Reinforcement learning with verifiable rewards has emerged as a powerful paradigm for training intelligent agents. However, existing methods typically employ binary rewards that fail to capture quality differences among trajectories achieving identical outcomes, thereby overlooking potential diversity within the solution space. Inspired by the ``sweet spot'' concept in tennis-the racket's core region that produces optimal hitting effects, we introduce Sweet Spot Learning (SSL), a novel framework that provides differentiated guidance for agent optimization. SSL follows a simple yet effective principle: progressively amplified, tiered rewards guide policies toward the sweet-spot region of the solution space. This principle naturally adapts across diverse tasks: visual perception tasks leverage distance-tiered modeling to reward proximity, while complex reasoning tasks reward incremental progress toward promising solutions. We theoretically demonstrate that SSL preserves optimal solution ordering and enhances the gradient signal-to-noise ratio, thereby fostering more directed optimization. Extensive experiments across GUI perception, short/long-term planning, and complex reasoning tasks show consistent improvements over strong baselines on 12 benchmarks, achieving up to 2.5X sample efficiency gains and effective cross-task transferability. Our work establishes SSL as a general principle for training capable and robust agents.
PDF112February 3, 2026