SSL: Apprendimento a Punto Ottimale per una Guida Differenziata nell'Ottimizzazione Agente

Abstract

L'apprendimento per rinforzo con ricompense verificabili è emerso come un potente paradigma per l'addestramento di agenti intelligenti. Tuttavia, i metodi esistenti impiegano tipicamente ricompense binarie che non riescono a cogliere le differenze qualitative tra le traiettorie che raggiungono risultati identici, trascurando così la potenziale diversità all'interno dello spazio delle soluzioni. Ispirati dal concetto del "punto centrale" (sweet spot) nel tennis – la regione centrale della racchetta che produce effetti di colpo ottimali – introduciamo lo Sweet Spot Learning (SSL), un nuovo framework che fornisce una guida differenziata per l'ottimizzazione dell'agente. SSL segue un principio semplice ma efficace: ricompande progressive, amplificate e graduate guidano le politiche verso la regione del punto centrale dello spazio delle soluzioni. Questo principio si adatta naturalmente a diverse tipologie di compiti: i compiti di percezione visiva sfruttano una modellazione a livelli basata sulla distanza per premiare la prossimità, mentre i compiti di ragionamento complesso premiano i progressi incrementali verso soluzioni promettenti. Dimostriamo teoricamente che SSL preserva l'ordinamento delle soluzioni ottimali e migliora il rapporto segnale-rumore del gradiente, favorendo così un'ottimizzazione più diretta. Esperimenti estesi su compiti di percezione GUI, pianificazione a breve/lungo termine e ragionamento complesso mostrano miglioramenti consistenti rispetto a baseline solide su 12 benchmark, raggiungendo fino a 2,5 volte l'efficienza campionaria e un'efficace trasferibilità cross-task. Il nostro lavoro stabilisce SSL come un principio generale per l'addestramento di agenti capaci e robusti.

English

Reinforcement learning with verifiable rewards has emerged as a powerful paradigm for training intelligent agents. However, existing methods typically employ binary rewards that fail to capture quality differences among trajectories achieving identical outcomes, thereby overlooking potential diversity within the solution space. Inspired by the ``sweet spot'' concept in tennis-the racket's core region that produces optimal hitting effects, we introduce Sweet Spot Learning (SSL), a novel framework that provides differentiated guidance for agent optimization. SSL follows a simple yet effective principle: progressively amplified, tiered rewards guide policies toward the sweet-spot region of the solution space. This principle naturally adapts across diverse tasks: visual perception tasks leverage distance-tiered modeling to reward proximity, while complex reasoning tasks reward incremental progress toward promising solutions. We theoretically demonstrate that SSL preserves optimal solution ordering and enhances the gradient signal-to-noise ratio, thereby fostering more directed optimization. Extensive experiments across GUI perception, short/long-term planning, and complex reasoning tasks show consistent improvements over strong baselines on 12 benchmarks, achieving up to 2.5X sample efficiency gains and effective cross-task transferability. Our work establishes SSL as a general principle for training capable and robust agents.

SSL: Apprendimento a Punto Ottimale per una Guida Differenziata nell'Ottimizzazione Agente

SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

Abstract

Support