Стратегема: Обучение переносимым рассуждениям посредством самоигры с модуляцией траекторий

Аннотация

Игры представляют убедительную парадигму для развития общих способностей к рассуждению в языковых моделях, поскольку они по своей природе требуют стратегического планирования, вероятностного вывода и адаптивного принятия решений. Однако существующие подходы к самообучению полагаются исключительно на конечные результаты игры, не предоставляя механизма для различения переносимых паттернов рассуждений от специфичных для игры эвристик. Мы представляем STRATAGEM, который решает два фундаментальных барьера для переноса рассуждений: *специфичность домена*, когда изученные паттерны остаются привязанными к семантике игры, и *контекстуальный стазис*, когда статичные игровые контексты не способствуют развитию прогрессивного рассуждения. STRATAGEM выборочно усиливает траектории, демонстрирующие абстрактные, не зависящие от домена рассуждения, с помощью Коэффициента Переносимости Рассуждений, одновременно стимулируя развитие адаптивного мышления посредством Награды за Эволюцию Рассуждений. Эксперименты на наборах данных по математическим рассуждениям, общим рассуждениям и генерации кода демонстрируют существенные улучшения, с особенно значительным прогрессом в решении задач математики уровня соревнований, где критически важно многошаговое рассуждение. Исследования методом абляции и оценка человеком подтверждают, что оба компонента вносят вклад в формирование переносимых навыков рассуждения.

English

Games offer a compelling paradigm for developing general reasoning capabilities in language models, as they naturally demand strategic planning, probabilistic inference, and adaptive decision-making. However, existing self-play approaches rely solely on terminal game outcomes, providing no mechanism to distinguish transferable reasoning patterns from game-specific heuristics. We present STRATAGEM, which addresses two fundamental barriers to reasoning transfer: domain specificity, where learned patterns remain anchored in game semantics, and contextual stasis, where static game contexts fail to cultivate progressive reasoning. STRATAGEM selectively reinforces trajectories exhibiting abstract, domain-agnostic reasoning through a Reasoning Transferability Coefficient, while incentivizing adaptive reasoning development via a Reasoning Evolution Reward. Experiments across mathematical reasoning, general reasoning, and code generation benchmarks demonstrate substantial improvements, with particularly strong gains on competition-level mathematics where multi-step reasoning is critical. Ablation studies and human evaluation confirm that both components contribute to transferable reasoning.

Стратегема: Обучение переносимым рассуждениям посредством самоигры с модуляцией траекторий

Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

Аннотация

Support