GeometryZero: Улучшение решения геометрических задач для языковых моделей с помощью групповой контрастной оптимизации политик
GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization
June 8, 2025
Авторы: Yikun Wang, Yibin Wang, Dianyi Wang, Zimian Peng, Qipeng Guo, Dacheng Tao, Jiaqi Wang
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) продемонстрировали впечатляющие возможности в различных областях, особенно в математических рассуждениях, среди которых решение геометрических задач остается сложной задачей, где вспомогательные построения играют ключевую роль. Существующие подходы либо демонстрируют неоптимальную производительность, либо полагаются на крупные LLM (например, GPT-4), что влечет за собой значительные вычислительные затраты. Мы предполагаем, что обучение с подкреплением с верифицируемой наградой (например, GRPO) предлагает перспективное направление для обучения более компактных моделей, которые эффективно сочетают вспомогательные построения с надежными геометрическими рассуждениями. Однако прямое применение GRPO к геометрическим задачам имеет фундаментальные ограничения из-за зависимости от безусловных наград, что приводит к неразборчивым и контрпродуктивным вспомогательным построениям. Для решения этих проблем мы предлагаем Group Contrastive Policy Optimization (GCPO), новую структуру обучения с подкреплением, включающую два ключевых нововведения: (1) Group Contrastive Masking, который адаптивно предоставляет положительные или отрицательные сигналы награды для вспомогательных построений на основе контекстной полезности, и (2) награду за длину, которая способствует более длинным цепочкам рассуждений. На основе GCPO мы разрабатываем GeometryZero, семейство моделей для геометрических рассуждений с умеренным размером, которые разумно определяют, когда использовать вспомогательные построения. Наши обширные эмпирические оценки на популярных геометрических тестах (Geometry3K, MathVista) показывают, что модели GeometryZero стабильно превосходят базовые подходы (например, GRPO), достигая среднего улучшения на 4,29% по всем тестам.
English
Recent advances in large language models (LLMs) have demonstrated remarkable
capabilities across diverse domains, particularly in mathematical reasoning,
amid which geometry problem solving remains a challenging area where auxiliary
construction plays a enssential role. Existing approaches either achieve
suboptimal performance or rely on massive LLMs (e.g., GPT-4o), incurring
massive computational costs. We posit that reinforcement learning with
verifiable reward (e.g., GRPO) offers a promising direction for training
smaller models that effectively combine auxiliary construction with robust
geometric reasoning. However, directly applying GRPO to geometric reasoning
presents fundamental limitations due to its dependence on unconditional
rewards, which leads to indiscriminate and counterproductive auxiliary
constructions. To address these challenges, we propose Group Contrastive Policy
Optimization (GCPO), a novel reinforcement learning framework featuring two key
innovations: (1) Group Contrastive Masking, which adaptively provides positive
or negative reward signals for auxiliary construction based on contextual
utility, and a (2) length reward that promotes longer reasoning chains.
Building on GCPO, we develop GeometryZero, a family of affordable-size
geometric reasoning models that judiciously determine when to employ auxiliary
construction. Our extensive empirical evaluation across popular geometric
benchmarks (Geometry3K, MathVista) demonstrates that GeometryZero models
consistently outperform baselines (e.g. GRPO), achieving an average improvement
of 4.29% across all benchmarks.