ChatPaper.aiChatPaper

От подражания к различению: к механизму обобщённого преимущества учебного плана для повышения эффективности решения кросс-доменных задач логического вывода

From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

December 2, 2025
Авторы: Changpeng Yang, Jinyang Wu, Yuchen Liu, Shuai Zhang, Yang Li, Qiliang Liang, Hongzhen Wang, Shuai Nie, Jiaming Xu, Runyu Shi, Ying Huang, Guoquan Zhang
cs.AI

Аннотация

Обучение с подкреплением стало парадигмой для посттренировки больших языковых моделей, повышая их способности к рассуждениям. Такие подходы вычисляют значение преимущества для каждого образца, отражающее лучшее или худшее производительность по сравнению с ожидаемой, тем самым создавая как позитивные, так и негативные сигналы для обучения. Однако бессистемное смешение двух сигналов в существующих методах, особенно на ранних этапах, может приводить к неоднозначным указаниям и ограниченному прогрессу. Для решения этой проблемы мы предлагаем **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization) — адаптивный механизм учебного плана, основанный на сигналах преимущества. Предложенный механизм инициирует обучение с подражанием, используя только образцы с позитивным преимуществом для создания надежной основы, а затем вводит негативные сигналы для развития дискриминативных способностей, тем самым улучшая обобщение в сложных сценариях. Совместимый с различными методами оптимизации, включая GRPO, PPO, RLOO и Reinforce++, наш метод стабильно достигает значительных улучшений в задачах математических рассуждений и эффективно обобщается на мультимодальные сценарии рассуждений о графических пользовательских интерфейсах (GUI), утверждая себя как универсальная и надежная оптимизационная структура.
English
Reinforcement learning has emerged as a paradigm for post-training large language models, boosting their reasoning capabilities. Such approaches compute an advantage value for each sample, reflecting better or worse performance than expected, thereby yielding both positive and negative signals for training. However, the indiscriminate mixing of the two signals in existing methods, especially from the early stages, may lead to ambiguous guidance and limited gains. To address this issue, we propose **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), an adaptive curriculum mechanism based on advantage signals. The proposed mechanism bootstraps imitation learning with positive-only advantage samples to establish robust foundations, and subsequently introduces negative signals to cultivate discriminative capabilities, thereby improving generalization across complex scenarios. Compatible with diverse optimization methods including GRPO, PPO, RLOO, and Reinforce++, our method consistently achieves stable and significant improvements in mathematical reasoning tasks, and further generalizes effectively to multimodal Graphical User Interface (GUI) reasoning scenarios, establishing itself as a versatile and robust optimization framework.
PDF272December 9, 2025