SSL: Sweet Spot Learning voor Gedifferentieerde Begeleiding bij Agent-gebaseerde Optimalisatie

Samenvatting

Versterkend leren met verifieerbare beloningen is naar voren gekomen als een krachtig paradigma voor het trainen van intelligente agenten. Bestaande methodes gebruiken echter typisch binaire beloningen die geen onderscheid kunnen maken tussen kwaliteitsverschillen van trajecten die hetzelfde resultaat bereiken, waardoor potentiële diversiteit binnen de oplossingsruimte over het hoofd wordt gezien. Geïnspireerd door het "sweet spot"-concept in tennis – het kerngebied van het racket dat optimale slageffecten produceert – introduceren wij Sweet Spot Learning (SSL), een nieuw raamwerk dat gedifferentieerde begeleiding biedt voor agentoptimalisatie. SSL volgt een eenvoudig maar effectief principe: progressief versterkte, gelaagde beloningen sturen beleid aan naar de sweet-spot regio van de oplossingsruimte. Dit principe past zich natuurlijk aan over diverse taken heen: visuele perceptietaken benutten afstandsgebaseerde gelaagde modellering om nabijheid te belonen, terwijl complexe redeneertaken incrementele vooruitgang naar veelbelovende oplossingen belonen. We tonen theoretisch aan dat SSL de volgorde van optimale oplossingen behoudt en de gradient signaal-ruisverhouding verbetert, waardoor meer gerichte optimalisatie wordt bevorderd. Uitgebreide experimenten over GUI-perceptie, kort-/langetermijnplanning en complexe redeneertaken laten consistente verbeteringen zien ten opzichte van sterke baseline-methodes op 12 benchmarks, met winsten in steekproefefficiëntie tot 2,5x en effectieve overdraagbaarheid tussen taken. Ons werk vestigt SSL als een algemeen principe voor het trainen van capabele en robuuste agenten.

English

Reinforcement learning with verifiable rewards has emerged as a powerful paradigm for training intelligent agents. However, existing methods typically employ binary rewards that fail to capture quality differences among trajectories achieving identical outcomes, thereby overlooking potential diversity within the solution space. Inspired by the ``sweet spot'' concept in tennis-the racket's core region that produces optimal hitting effects, we introduce Sweet Spot Learning (SSL), a novel framework that provides differentiated guidance for agent optimization. SSL follows a simple yet effective principle: progressively amplified, tiered rewards guide policies toward the sweet-spot region of the solution space. This principle naturally adapts across diverse tasks: visual perception tasks leverage distance-tiered modeling to reward proximity, while complex reasoning tasks reward incremental progress toward promising solutions. We theoretically demonstrate that SSL preserves optimal solution ordering and enhances the gradient signal-to-noise ratio, thereby fostering more directed optimization. Extensive experiments across GUI perception, short/long-term planning, and complex reasoning tasks show consistent improvements over strong baselines on 12 benchmarks, achieving up to 2.5X sample efficiency gains and effective cross-task transferability. Our work establishes SSL as a general principle for training capable and robust agents.

SSL: Sweet Spot Learning voor Gedifferentieerde Begeleiding bij Agent-gebaseerde Optimalisatie

SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

Samenvatting

Support