GeometryZero: Miglioramento della Risoluzione di Problemi Geometrici per LLM con Ottimizzazione delle Politiche a Contrasto di Gruppo
GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization
June 8, 2025
Autori: Yikun Wang, Yibin Wang, Dianyi Wang, Zimian Peng, Qipeng Guo, Dacheng Tao, Jiaqi Wang
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie in diversi ambiti, in particolare nel ragionamento matematico, tra i quali la risoluzione di problemi di geometria rimane un'area impegnativa in cui le costruzioni ausiliarie svolgono un ruolo essenziale. Gli approcci esistenti ottengono prestazioni subottimali o si basano su LLM di grandi dimensioni (ad esempio, GPT-4), comportando costi computazionali elevati. Proponiamo che l'apprendimento per rinforzo con ricompensa verificabile (ad esempio, GRPO) offra una direzione promettente per addestrare modelli più piccoli che combinano efficacemente le costruzioni ausiliarie con un solido ragionamento geometrico. Tuttavia, l'applicazione diretta di GRPO al ragionamento geometrico presenta limitazioni fondamentali a causa della sua dipendenza da ricompense incondizionate, che portano a costruzioni ausiliarie indiscriminate e controproducenti. Per affrontare queste sfide, proponiamo il Group Contrastive Policy Optimization (GCPO), un nuovo framework di apprendimento per rinforzo che presenta due innovazioni chiave: (1) il Group Contrastive Masking, che fornisce in modo adattivo segnali di ricompensa positivi o negativi per le costruzioni ausiliarie basati sull'utilità contestuale, e (2) una ricompensa per la lunghezza che promuove catene di ragionamento più estese. Basandoci su GCPO, sviluppiamo GeometryZero, una famiglia di modelli di ragionamento geometrico di dimensioni contenute che determinano in modo giudizioso quando impiegare costruzioni ausiliarie. La nostra ampia valutazione empirica su benchmark geometrici popolari (Geometry3K, MathVista) dimostra che i modelli GeometryZero superano costantemente i baseline (ad esempio, GRPO), ottenendo un miglioramento medio del 4,29% su tutti i benchmark.
English
Recent advances in large language models (LLMs) have demonstrated remarkable
capabilities across diverse domains, particularly in mathematical reasoning,
amid which geometry problem solving remains a challenging area where auxiliary
construction plays a enssential role. Existing approaches either achieve
suboptimal performance or rely on massive LLMs (e.g., GPT-4o), incurring
massive computational costs. We posit that reinforcement learning with
verifiable reward (e.g., GRPO) offers a promising direction for training
smaller models that effectively combine auxiliary construction with robust
geometric reasoning. However, directly applying GRPO to geometric reasoning
presents fundamental limitations due to its dependence on unconditional
rewards, which leads to indiscriminate and counterproductive auxiliary
constructions. To address these challenges, we propose Group Contrastive Policy
Optimization (GCPO), a novel reinforcement learning framework featuring two key
innovations: (1) Group Contrastive Masking, which adaptively provides positive
or negative reward signals for auxiliary construction based on contextual
utility, and a (2) length reward that promotes longer reasoning chains.
Building on GCPO, we develop GeometryZero, a family of affordable-size
geometric reasoning models that judiciously determine when to employ auxiliary
construction. Our extensive empirical evaluation across popular geometric
benchmarks (Geometry3K, MathVista) demonstrates that GeometryZero models
consistently outperform baselines (e.g. GRPO), achieving an average improvement
of 4.29% across all benchmarks.