ChatPaper.aiChatPaper

SSL: 에이전트 최적화에서 차별화된 지도를 위한 스위트 스팟 학습

SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

January 30, 2026
저자: Jinyang Wu, Changpeng Yang, Yuhao Shen, Fangzhi Xu, Bolin Ni, Chonghua Liao, Yuchen Liu, Hongzhen Wang, Shuai Nie, Shuai Zhang, Haoran Luo, Jiaming Xu
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습은 지능형 에이전트 훈련을 위한 강력한 패러다임으로 부상했습니다. 그러나 기존 방법들은 일반적으로 동일한 결과를 달성한 경로 간의 질적 차이를 포착하지 못하는 이분법적 보상을 사용함으로써 해법 공간 내 잠재적 다양성을 간과해 왔습니다. 테니스에서 최적의 타격 효과를 내는 라켓의 핵심 영역인 '스윗 스팟' 개념에서 영감을 얻어, 우리는 에이전트 최적화를 위한 차별화된 지도를 제공하는 새로운 프레임워크인 Sweet Spot Learning(SSL)을 제안합니다. SSL은 간단하면서도 효과적인 원칙을 따릅니다: 점진적으로 증폭되는 계층적 보상이 정책을 해법 공간의 스윗 스팟 영역으로 유도합니다. 이 원칙은 다양한 작업에 자연스럽게 적용됩니다: 시각 인식 작업은 거리 기반 계층 모델링을 통해 근접성을 보상하는 반면, 복잡한 추론 작업은 유망한 해법을 향한 점진적 진전을 보상합니다. 우리는 SSL이 최적 해법 순서를 보존하고 그래디언트 신호 대 잡음비를 향상시켜 더 방향성 있는 최적화를 촉진함을 이론적으로 입증합니다. GUI 인식, 단기/장기 계획 수립, 복잡한 추론 작업에 걸친 광범위한 실험을 통해 12개 벤치마크에서 강력한 기준선 대비 일관된 성능 향상과 최대 2.5배의 샘플 효율 향상, 효과적인 작업 간 전이 가능성을 확인했습니다. 우리의 연구는 SSL을 능력 있고 강력한 에이전트 훈련을 위한 보편적 원칙으로 정립합니다.
English
Reinforcement learning with verifiable rewards has emerged as a powerful paradigm for training intelligent agents. However, existing methods typically employ binary rewards that fail to capture quality differences among trajectories achieving identical outcomes, thereby overlooking potential diversity within the solution space. Inspired by the ``sweet spot'' concept in tennis-the racket's core region that produces optimal hitting effects, we introduce Sweet Spot Learning (SSL), a novel framework that provides differentiated guidance for agent optimization. SSL follows a simple yet effective principle: progressively amplified, tiered rewards guide policies toward the sweet-spot region of the solution space. This principle naturally adapts across diverse tasks: visual perception tasks leverage distance-tiered modeling to reward proximity, while complex reasoning tasks reward incremental progress toward promising solutions. We theoretically demonstrate that SSL preserves optimal solution ordering and enhances the gradient signal-to-noise ratio, thereby fostering more directed optimization. Extensive experiments across GUI perception, short/long-term planning, and complex reasoning tasks show consistent improvements over strong baselines on 12 benchmarks, achieving up to 2.5X sample efficiency gains and effective cross-task transferability. Our work establishes SSL as a general principle for training capable and robust agents.
PDF112February 3, 2026