Strategema: Apprendimento del Ragionamento Trasferibile Tramite Autogioco Modulato su Traiettorie

Abstract

I giochi offrono un paradigma convincente per lo sviluppo di capacità di ragionamento generale nei modelli linguistici, poiché richiedono naturalmente pianificazione strategica, inferenza probabilistica e processi decisionali adattivi. Tuttavia, gli approcci esistenti di auto-apprendimento si basano esclusivamente sugli esiti finali della partita, non fornendo alcun meccanismo per distinguere gli schemi di ragionamento trasferibili dalle euristiche specifiche del gioco. Presentiamo STRATAGEM, che affronta due barriere fondamentali al trasferimento del ragionamento: la specificità di dominio, dove gli schemi appresi rimangono ancorati alla semantica del gioco, e la stasi contestuale, dove i contesti di gioco statici non riescono a coltivare un ragionamento progressivo. STRATAGEM rinforza selettivamente le traiettorie che mostrano un ragionamento astratto e indipendente dal dominio attraverso un Coefficiente di Trasferibilità del Ragionamento, mentre incentiva lo sviluppo di un ragionamento adattivo tramite una Ricompensa per l'Evoluzione del Ragionamento. Esperimenti su benchmark di ragionamento matematico, ragionamento generale e generazione di codice dimostrano miglioramenti sostanziali, con guadagni particolarmente significativi nella matematica a livello competitivo, dove un ragionamento a più fasi è critico. Studi di ablazione e valutazione umana confermano che entrambe le componenti contribuiscono a un ragionamento trasferibile.

English

Games offer a compelling paradigm for developing general reasoning capabilities in language models, as they naturally demand strategic planning, probabilistic inference, and adaptive decision-making. However, existing self-play approaches rely solely on terminal game outcomes, providing no mechanism to distinguish transferable reasoning patterns from game-specific heuristics. We present STRATAGEM, which addresses two fundamental barriers to reasoning transfer: domain specificity, where learned patterns remain anchored in game semantics, and contextual stasis, where static game contexts fail to cultivate progressive reasoning. STRATAGEM selectively reinforces trajectories exhibiting abstract, domain-agnostic reasoning through a Reasoning Transferability Coefficient, while incentivizing adaptive reasoning development via a Reasoning Evolution Reward. Experiments across mathematical reasoning, general reasoning, and code generation benchmarks demonstrate substantial improvements, with particularly strong gains on competition-level mathematics where multi-step reasoning is critical. Ablation studies and human evaluation confirm that both components contribute to transferable reasoning.

Strategema: Apprendimento del Ragionamento Trasferibile Tramite Autogioco Modulato su Traiettorie

Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

Abstract

Support