Strategie: Leer overdraagbare redeneervaardigheden via traject-gemoduleerd spel-zelfspel

Samenvatting

Games bieden een overtuigend paradigma voor het ontwikkelen van algemene redeneervaardigheden in taalmodellen, omdat ze van nature strategische planning, probabilistische inferentie en adaptieve besluitvorming vereisen. Bestaande zelf-speelbenaderingen vertrouwen echter uitsluitend op einduitkomsten van het spel, en bieden geen mechanisme om overdraagbare redeneerpatronen te onderscheiden van gamespecifieke heuristieken. Wij presenteren STRATAGEM, dat twee fundamentele barrières voor redeneertransfer aanpakt: domeinspecificiteit, waarbij geleerde patronen verankerd blijven in de semantiek van het spel, en contextuele stasis, waarbij statische spelcontexten geen progressief redeneren bevorderen. STRATAGEM versterkt selectief trajecten die abstract, domein-onafhankelijk redeneren vertonen via een Redeneeroverdraagbaarheidscoëfficiënt, terwijl het adaptieve redeneerontwikkeling stimuleert via een Redeneerevolutiebeloning. Experimenten op benchmarks voor wiskundig redeneren, algemeen redeneren en codegeneratie tonen substantiële verbeteringen aan, met bijzonder sterke vooruitgang op competitieniveau wiskunde waar meerstapsredeneren cruciaal is. Ablatiestudies en humane evaluatie bevestigen dat beide componenten bijdragen aan overdraagbaar redeneren.

English

Games offer a compelling paradigm for developing general reasoning capabilities in language models, as they naturally demand strategic planning, probabilistic inference, and adaptive decision-making. However, existing self-play approaches rely solely on terminal game outcomes, providing no mechanism to distinguish transferable reasoning patterns from game-specific heuristics. We present STRATAGEM, which addresses two fundamental barriers to reasoning transfer: domain specificity, where learned patterns remain anchored in game semantics, and contextual stasis, where static game contexts fail to cultivate progressive reasoning. STRATAGEM selectively reinforces trajectories exhibiting abstract, domain-agnostic reasoning through a Reasoning Transferability Coefficient, while incentivizing adaptive reasoning development via a Reasoning Evolution Reward. Experiments across mathematical reasoning, general reasoning, and code generation benchmarks demonstrate substantial improvements, with particularly strong gains on competition-level mathematics where multi-step reasoning is critical. Ablation studies and human evaluation confirm that both components contribute to transferable reasoning.

Strategie: Leer overdraagbare redeneervaardigheden via traject-gemoduleerd spel-zelfspel

Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

Samenvatting

Support