DVAO: Otimização de Vantagem Adaptativa à Variância Dinâmica para Aprendizado por Reforço com Múltiplas Recompensas

Resumo

O Aprendizado por Reforço tornou-se um paradigma padrão para alinhar Modelos de Linguagem de Grande Porte com a intenção humana e os requisitos de tarefas. Embora a Otimização Política Relativa a Grupos ofereça uma alternativa eficiente e livre de modelo de valor à Otimização Política Proximal, sua adaptação a cenários reais com múltiplas recompensas permanece desafiadora. Práticas padrão de escalarização, como Combinação de Recompensas e Combinação de Vantagens, apresentam desvantagens significativas: a Combinação de Recompensas frequentemente gera vantagens com magnitudes quadráticas excessivamente grandes que levam à instabilidade no treinamento, enquanto a Combinação de Vantagens depende de hiperparâmetros estáticos e ignora correlações entre objetivos. Para lidar com essas limitações, propomos a Otimização Dinâmica de Vantagens com Variância Adaptativa (DVAO), que ajusta dinamicamente os pesos de combinação com base na variância empírica da recompensa de cada objetivo dentro de um grupo de rolagem, aumentando efetivamente o peso de objetivos com um sinal de aprendizado mais forte enquanto suprime os ruidosos. Provamos matematicamente que o DVAO mantém magnitudes de vantagem limitadas para treinamento estável e introduz um mecanismo de regularização auto-adaptativa entre objetivos. Experimentos extensivos em benchmarks de raciocínio matemático e uso de ferramentas, utilizando os modelos Qwen3 e Qwen2.5, demonstram que o DVAO supera significativamente os métodos de base, alcançando uma fronteira de Pareto multiobjetivo superior e robusta estabilidade de treinamento.

English

Reinforcement Learning has become a standard paradigm for aligning Large Language Models with human intent and task requirements. While Group Relative Policy Optimization offers an efficient, value-model-free alternative to Proximal Policy Optimization, adapting it to real-world multi-reward settings remains challenging. Standard scalarization practices, such as Reward Combination and Advantage Combination, suffer from significant drawbacks: Reward Combination frequently generates advantages with excessively large squared magnitudes that lead to training instability, while Advantage Combination relies on static hyperparameters and ignores cross-objective correlations. To address these limitations, we propose Dynamic Variance-adaptive Advantage Optimization (DVAO), which dynamically adjusts combination weights based on the empirical reward variance of each objective within a rollout group, effectively up-weighting objectives with a stronger learning signal while suppressing noisy ones. We mathematically prove that DVAO maintains bounded advantage magnitudes for stable training and introduces a self-adaptive cross-objective regularization mechanism. Extensive experiments on mathematical reasoning and tool-use benchmarks using Qwen3 and Qwen2.5 models demonstrate that DVAO significantly outperforms baseline methods, achieving a superior multi-objective Pareto frontier and robust training stability.