Estrategema: Aprendizaje de Razonamiento Transferible mediante Autojuego de Juegos Modulado por Trayectoria

Resumen

Los juegos ofrecen un paradigma convincente para desarrollar capacidades de razonamiento general en modelos de lenguaje, ya que exigen naturalmente planificación estratégica, inferencia probabilística y toma de decisiones adaptativa. Sin embargo, los enfoques existentes de auto-juego dependen únicamente de los resultados finales del juego, sin proporcionar ningún mecanismo para distinguir los patrones de razonamiento transferibles de las heurísticas específicas del juego. Presentamos STRATAGEM, que aborda dos barreras fundamentales para la transferencia de razonamiento: la especificidad de dominio, donde los patrones aprendidos permanecen anclados en la semántica del juego, y la estasis contextual, donde los contextos estáticos del juego no logran cultivar un razonamiento progresivo. STRATAGEM refuerza selectivamente las trayectorias que exhiben un razonamiento abstracto y agnóstico al dominio mediante un Coeficiente de Transferibilidad de Razonamiento, mientras incentiva el desarrollo de un razonamiento adaptativo a través de una Recompensa de Evolución de Razonamiento. Los experimentos en benchmarks de razonamiento matemático, razonamiento general y generación de código demuestran mejoras sustanciales, con avances particularmente fuertes en matemáticas de nivel competitivo donde el razonamiento multi-etapa es crítico. Los estudios de ablación y la evaluación humana confirman que ambos componentes contribuyen a un razonamiento transferible.

English

Games offer a compelling paradigm for developing general reasoning capabilities in language models, as they naturally demand strategic planning, probabilistic inference, and adaptive decision-making. However, existing self-play approaches rely solely on terminal game outcomes, providing no mechanism to distinguish transferable reasoning patterns from game-specific heuristics. We present STRATAGEM, which addresses two fundamental barriers to reasoning transfer: domain specificity, where learned patterns remain anchored in game semantics, and contextual stasis, where static game contexts fail to cultivate progressive reasoning. STRATAGEM selectively reinforces trajectories exhibiting abstract, domain-agnostic reasoning through a Reasoning Transferability Coefficient, while incentivizing adaptive reasoning development via a Reasoning Evolution Reward. Experiments across mathematical reasoning, general reasoning, and code generation benchmarks demonstrate substantial improvements, with particularly strong gains on competition-level mathematics where multi-step reasoning is critical. Ablation studies and human evaluation confirm that both components contribute to transferable reasoning.

Estrategema: Aprendizaje de Razonamiento Transferible mediante Autojuego de Juegos Modulado por Trayectoria

Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

Resumen

Support