GeometryZero: Miglioramento della Risoluzione di Problemi Geometrici per LLM con Ottimizzazione delle Politiche a Contrasto di Gruppo

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie in diversi ambiti, in particolare nel ragionamento matematico, tra i quali la risoluzione di problemi di geometria rimane un'area impegnativa in cui le costruzioni ausiliarie svolgono un ruolo essenziale. Gli approcci esistenti ottengono prestazioni subottimali o si basano su LLM di grandi dimensioni (ad esempio, GPT-4), comportando costi computazionali elevati. Proponiamo che l'apprendimento per rinforzo con ricompensa verificabile (ad esempio, GRPO) offra una direzione promettente per addestrare modelli più piccoli che combinano efficacemente le costruzioni ausiliarie con un solido ragionamento geometrico. Tuttavia, l'applicazione diretta di GRPO al ragionamento geometrico presenta limitazioni fondamentali a causa della sua dipendenza da ricompense incondizionate, che portano a costruzioni ausiliarie indiscriminate e controproducenti. Per affrontare queste sfide, proponiamo il Group Contrastive Policy Optimization (GCPO), un nuovo framework di apprendimento per rinforzo che presenta due innovazioni chiave: (1) il Group Contrastive Masking, che fornisce in modo adattivo segnali di ricompensa positivi o negativi per le costruzioni ausiliarie basati sull'utilità contestuale, e (2) una ricompensa per la lunghezza che promuove catene di ragionamento più estese. Basandoci su GCPO, sviluppiamo GeometryZero, una famiglia di modelli di ragionamento geometrico di dimensioni contenute che determinano in modo giudizioso quando impiegare costruzioni ausiliarie. La nostra ampia valutazione empirica su benchmark geometrici popolari (Geometry3K, MathVista) dimostra che i modelli GeometryZero superano costantemente i baseline (ad esempio, GRPO), ottenendo un miglioramento medio del 4,29% su tutti i benchmark.

English

Recent advances in large language models (LLMs) have demonstrated remarkable capabilities across diverse domains, particularly in mathematical reasoning, amid which geometry problem solving remains a challenging area where auxiliary construction plays a enssential role. Existing approaches either achieve suboptimal performance or rely on massive LLMs (e.g., GPT-4o), incurring massive computational costs. We posit that reinforcement learning with verifiable reward (e.g., GRPO) offers a promising direction for training smaller models that effectively combine auxiliary construction with robust geometric reasoning. However, directly applying GRPO to geometric reasoning presents fundamental limitations due to its dependence on unconditional rewards, which leads to indiscriminate and counterproductive auxiliary constructions. To address these challenges, we propose Group Contrastive Policy Optimization (GCPO), a novel reinforcement learning framework featuring two key innovations: (1) Group Contrastive Masking, which adaptively provides positive or negative reward signals for auxiliary construction based on contextual utility, and a (2) length reward that promotes longer reasoning chains. Building on GCPO, we develop GeometryZero, a family of affordable-size geometric reasoning models that judiciously determine when to employ auxiliary construction. Our extensive empirical evaluation across popular geometric benchmarks (Geometry3K, MathVista) demonstrates that GeometryZero models consistently outperform baselines (e.g. GRPO), achieving an average improvement of 4.29% across all benchmarks.

GeometryZero: Miglioramento della Risoluzione di Problemi Geometrici per LLM con Ottimizzazione delle Politiche a Contrasto di Gruppo

GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization

Abstract

Support