ChatPaper.aiChatPaper

GeometryZero: Улучшение решения геометрических задач для языковых моделей с помощью групповой контрастной оптимизации политик

GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization

June 8, 2025
Авторы: Yikun Wang, Yibin Wang, Dianyi Wang, Zimian Peng, Qipeng Guo, Dacheng Tao, Jiaqi Wang
cs.AI

Аннотация

Последние достижения в области больших языковых моделей (LLM) продемонстрировали впечатляющие возможности в различных областях, особенно в математических рассуждениях, среди которых решение геометрических задач остается сложной задачей, где вспомогательные построения играют ключевую роль. Существующие подходы либо демонстрируют неоптимальную производительность, либо полагаются на крупные LLM (например, GPT-4), что влечет за собой значительные вычислительные затраты. Мы предполагаем, что обучение с подкреплением с верифицируемой наградой (например, GRPO) предлагает перспективное направление для обучения более компактных моделей, которые эффективно сочетают вспомогательные построения с надежными геометрическими рассуждениями. Однако прямое применение GRPO к геометрическим задачам имеет фундаментальные ограничения из-за зависимости от безусловных наград, что приводит к неразборчивым и контрпродуктивным вспомогательным построениям. Для решения этих проблем мы предлагаем Group Contrastive Policy Optimization (GCPO), новую структуру обучения с подкреплением, включающую два ключевых нововведения: (1) Group Contrastive Masking, который адаптивно предоставляет положительные или отрицательные сигналы награды для вспомогательных построений на основе контекстной полезности, и (2) награду за длину, которая способствует более длинным цепочкам рассуждений. На основе GCPO мы разрабатываем GeometryZero, семейство моделей для геометрических рассуждений с умеренным размером, которые разумно определяют, когда использовать вспомогательные построения. Наши обширные эмпирические оценки на популярных геометрических тестах (Geometry3K, MathVista) показывают, что модели GeometryZero стабильно превосходят базовые подходы (например, GRPO), достигая среднего улучшения на 4,29% по всем тестам.
English
Recent advances in large language models (LLMs) have demonstrated remarkable capabilities across diverse domains, particularly in mathematical reasoning, amid which geometry problem solving remains a challenging area where auxiliary construction plays a enssential role. Existing approaches either achieve suboptimal performance or rely on massive LLMs (e.g., GPT-4o), incurring massive computational costs. We posit that reinforcement learning with verifiable reward (e.g., GRPO) offers a promising direction for training smaller models that effectively combine auxiliary construction with robust geometric reasoning. However, directly applying GRPO to geometric reasoning presents fundamental limitations due to its dependence on unconditional rewards, which leads to indiscriminate and counterproductive auxiliary constructions. To address these challenges, we propose Group Contrastive Policy Optimization (GCPO), a novel reinforcement learning framework featuring two key innovations: (1) Group Contrastive Masking, which adaptively provides positive or negative reward signals for auxiliary construction based on contextual utility, and a (2) length reward that promotes longer reasoning chains. Building on GCPO, we develop GeometryZero, a family of affordable-size geometric reasoning models that judiciously determine when to employ auxiliary construction. Our extensive empirical evaluation across popular geometric benchmarks (Geometry3K, MathVista) demonstrates that GeometryZero models consistently outperform baselines (e.g. GRPO), achieving an average improvement of 4.29% across all benchmarks.
PDF32June 10, 2025