Strategie: Erlernen übertragbarer Denkfähigkeiten durch trajektorienmoduliertes Spiel-Selbstgespräch

Zusammenfassung

Spiele bieten ein überzeugendes Paradigma für die Entwicklung allgemeiner Denkfähigkeiten in Sprachmodellen, da sie natürlicherweise strategische Planung, probabilistische Inferenz und adaptive Entscheidungsfindung erfordern. Bisherige Self-Play-Ansätze stützen sich jedoch ausschließlich auf endgültige Spielergebnisse und bieten keinen Mechanismus, um übertragbare Denkmuster von spielspezifischen Heuristiken zu unterscheiden. Wir stellen STRATAGEM vor, das zwei grundlegende Hindernisse für den Transfer von Denkfähigkeiten adressiert: Domänenspezifität, bei der gelernte Muster in der Spielsemantik verankert bleiben, und kontextuelle Stasis, bei der statische Spielkontexte keine fortschreitende Denkentwicklung fördern. STRATAGEM verstärkt selektiv Trajektorien, die abstraktes, domänenunabhängiges Denken zeigen, durch einen Transferierbarkeitskoeffizienten für Reasoning, während es adaptive Denkentwicklung durch eine Belohnung für Reasoning-Evolution anregt. Experimente mit Benchmarks für mathematisches Denken, allgemeines Reasoning und Code-Generierung zeigen substantielle Verbesserungen, mit besonders deutlichen Gewinnen bei wettbewerbsorientierter Mathematik, wo mehrstufiges Denken entscheidend ist. Ablationsstudien und humane Evaluation bestätigen, dass beide Komponenten zu übertragbarem Reasoning beitragen.

English

Games offer a compelling paradigm for developing general reasoning capabilities in language models, as they naturally demand strategic planning, probabilistic inference, and adaptive decision-making. However, existing self-play approaches rely solely on terminal game outcomes, providing no mechanism to distinguish transferable reasoning patterns from game-specific heuristics. We present STRATAGEM, which addresses two fundamental barriers to reasoning transfer: domain specificity, where learned patterns remain anchored in game semantics, and contextual stasis, where static game contexts fail to cultivate progressive reasoning. STRATAGEM selectively reinforces trajectories exhibiting abstract, domain-agnostic reasoning through a Reasoning Transferability Coefficient, while incentivizing adaptive reasoning development via a Reasoning Evolution Reward. Experiments across mathematical reasoning, general reasoning, and code generation benchmarks demonstrate substantial improvements, with particularly strong gains on competition-level mathematics where multi-step reasoning is critical. Ablation studies and human evaluation confirm that both components contribute to transferable reasoning.

Strategie: Erlernen übertragbarer Denkfähigkeiten durch trajektorienmoduliertes Spiel-Selbstgespräch

Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

Zusammenfassung

Support