Stratagème : Apprentissage d'un Raisonnement Transférable par Auto-Jeu de Jeu Modulé par les Trajectoires

Résumé

Les jeux offrent un paradigme convaincant pour développer des capacités de raisonnement général dans les modèles de langage, car ils exigent naturellement une planification stratégique, une inférence probabiliste et une prise de décision adaptative. Cependant, les approches existantes d'auto-apprentissage reposent uniquement sur les résultats finaux des parties, sans offrir de mécanisme pour distinguer les schémas de raisonnement transférables des heuristiques spécifiques au jeu. Nous présentons STRATAGEM, qui aborde deux obstacles fondamentaux au transfert de raisonnement : la spécificité du domaine, où les schémas appris restent ancrés dans la sémantique du jeu, et la stase contextuelle, où des contextes de jeu statiques ne parviennent pas à cultiver un raisonnement progressif. STRATAGEM renforce sélectivement les trajectoires présentant un raisonnement abstrait et indépendant du domaine via un Coefficient de Transférabilité du Raisonnement, tout en favorisant le développement d'un raisonnement adaptatif grâce à une Récompense d'Évolution du Raisonnement. Les expériences menées sur des benchmarks de raisonnement mathématique, de raisonnement général et de génération de code démontrent des améliorations substantielles, avec des gains particulièrement nets en mathématiques de niveau compétitif où le raisonnement multi-étapes est crucial. Les études d'ablation et l'évaluation humaine confirment que les deux composantes contribuent à un raisonnement transférable.

English

Games offer a compelling paradigm for developing general reasoning capabilities in language models, as they naturally demand strategic planning, probabilistic inference, and adaptive decision-making. However, existing self-play approaches rely solely on terminal game outcomes, providing no mechanism to distinguish transferable reasoning patterns from game-specific heuristics. We present STRATAGEM, which addresses two fundamental barriers to reasoning transfer: domain specificity, where learned patterns remain anchored in game semantics, and contextual stasis, where static game contexts fail to cultivate progressive reasoning. STRATAGEM selectively reinforces trajectories exhibiting abstract, domain-agnostic reasoning through a Reasoning Transferability Coefficient, while incentivizing adaptive reasoning development via a Reasoning Evolution Reward. Experiments across mathematical reasoning, general reasoning, and code generation benchmarks demonstrate substantial improvements, with particularly strong gains on competition-level mathematics where multi-step reasoning is critical. Ablation studies and human evaluation confirm that both components contribute to transferable reasoning.

Stratagème : Apprentissage d'un Raisonnement Transférable par Auto-Jeu de Jeu Modulé par les Trajectoires

Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

Résumé

Support