Estratagema: Aprendizado de Raciocínio Transferível via Autojogo com Modulação de Trajetória

Resumo

Os jogos oferecem um paradigma convincente para desenvolver capacidades de raciocínio geral em modelos de linguagem, uma vez que exigem naturalmente planeamento estratégico, inferência probabilística e tomada de decisão adaptativa. No entanto, as abordagens existentes de auto-jogo dependem unicamente dos resultados finais do jogo, não fornecendo qualquer mecanismo para distinguir padrões de raciocínio transferíveis de heurísticas específicas do jogo. Apresentamos o STRATAGEM, que aborda duas barreiras fundamentais à transferência de raciocínio: a *especificidade de domínio*, onde padrões aprendidos permanecem ancorados na semântica do jogo, e a *estase contextual*, onde contextos de jogo estáticos não conseguem cultivar um raciocínio progressivo. O STRATAGEM reforça seletivamente trajetórias que exibem raciocínio abstrato e independente do domínio através de um Coeficiente de Transferibilidade de Raciocínio, enquanto incentiva o desenvolvimento de raciocínio adaptativo através de uma Recompensa de Evolução de Raciocínio. Experiências em benchmarks de raciocínio matemático, raciocínio geral e geração de código demonstram melhorias substanciais, com ganhos particularmente fortes em matemática de nível competitivo, onde o raciocínio multi-etapa é crítico. Estudos de ablação e avaliação humana confirmam que ambos os componentes contribuem para um raciocínio transferível.

English

Games offer a compelling paradigm for developing general reasoning capabilities in language models, as they naturally demand strategic planning, probabilistic inference, and adaptive decision-making. However, existing self-play approaches rely solely on terminal game outcomes, providing no mechanism to distinguish transferable reasoning patterns from game-specific heuristics. We present STRATAGEM, which addresses two fundamental barriers to reasoning transfer: domain specificity, where learned patterns remain anchored in game semantics, and contextual stasis, where static game contexts fail to cultivate progressive reasoning. STRATAGEM selectively reinforces trajectories exhibiting abstract, domain-agnostic reasoning through a Reasoning Transferability Coefficient, while incentivizing adaptive reasoning development via a Reasoning Evolution Reward. Experiments across mathematical reasoning, general reasoning, and code generation benchmarks demonstrate substantial improvements, with particularly strong gains on competition-level mathematics where multi-step reasoning is critical. Ablation studies and human evaluation confirm that both components contribute to transferable reasoning.

Estratagema: Aprendizado de Raciocínio Transferível via Autojogo com Modulação de Trajetória

Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

Resumo

Support