SSL: Aprendizado de Ponto Ideal para Orientação Diferenciada na Otimização de Agentes

Resumo

O aprendizado por reforço com recompensas verificáveis emergiu como um paradigma poderoso para o treinamento de agentes inteligentes. No entanto, os métodos existentes geralmente empregam recompensas binárias que não conseguem capturar diferenças de qualidade entre trajetórias que alcançam resultados idênticos, ignorando assim a diversidade potencial dentro do espaço de soluções. Inspirado pelo conceito do "ponto ideal" (*sweet spot*) no tênis - a região central da raquete que produz os efeitos de impacto ótimos - introduzimos a Aprendizagem pelo Ponto Ideal (SSL), uma estrutura nova que fornece orientação diferenciada para a otimização de agentes. O SSL segue um princípio simples, porém eficaz: recompensas escalonadas e progressivamente amplificadas guiam as políticas em direção à região do ponto ideal do espaço de soluções. Este princípio adapta-se naturalmente a diversas tarefas: tarefas de percepção visual aproveitam a modelagem escalonada por distância para recompensar a proximidade, enquanto tarefas de raciocínio complexo recompensam o progresso incremental em direção a soluções promissoras. Demonstramos teoricamente que o SSL preserva a ordenação ótima de soluções e melhora a relação sinal-ruído do gradiente, fomentando assim uma otimização mais direcionada. Experimentos extensos em tarefas de percepção de GUI, planejamento de curto/longo prazo e raciocínio complexo mostram melhorias consistentes sobre bases de comparação robustas em 12 *benchmarks*, alcançando ganhos de eficiência amostral de até 2,5 vezes e uma efetiva transferibilidade entre tarefas. O nosso trabalho estabelece o SSL como um princípio geral para o treinamento de agentes capazes e robustos.

English

Reinforcement learning with verifiable rewards has emerged as a powerful paradigm for training intelligent agents. However, existing methods typically employ binary rewards that fail to capture quality differences among trajectories achieving identical outcomes, thereby overlooking potential diversity within the solution space. Inspired by the ``sweet spot'' concept in tennis-the racket's core region that produces optimal hitting effects, we introduce Sweet Spot Learning (SSL), a novel framework that provides differentiated guidance for agent optimization. SSL follows a simple yet effective principle: progressively amplified, tiered rewards guide policies toward the sweet-spot region of the solution space. This principle naturally adapts across diverse tasks: visual perception tasks leverage distance-tiered modeling to reward proximity, while complex reasoning tasks reward incremental progress toward promising solutions. We theoretically demonstrate that SSL preserves optimal solution ordering and enhances the gradient signal-to-noise ratio, thereby fostering more directed optimization. Extensive experiments across GUI perception, short/long-term planning, and complex reasoning tasks show consistent improvements over strong baselines on 12 benchmarks, achieving up to 2.5X sample efficiency gains and effective cross-task transferability. Our work establishes SSL as a general principle for training capable and robust agents.

SSL: Aprendizado de Ponto Ideal para Orientação Diferenciada na Otimização de Agentes

SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

Resumo

Support