ChatPaper.aiChatPaper

GeometryZero: Verbetering van Geometrieoplossing voor LLM met Groepsgecontrasteerde Beleidsoptimalisatie

GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization

June 8, 2025
Auteurs: Yikun Wang, Yibin Wang, Dianyi Wang, Zimian Peng, Qipeng Guo, Dacheng Tao, Jiaqi Wang
cs.AI

Samenvatting

Recente ontwikkelingen in grote taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond in diverse domeinen, met name in wiskundig redeneren, waarbij het oplossen van geometrieproblemen een uitdagend gebied blijft waar hulpconstructies een essentiële rol spelen. Bestaande benaderingen leveren suboptimale prestaties of zijn afhankelijk van enorme LLMs (bijv. GPT-4o), wat grote rekenkosten met zich meebrengt. Wij stellen dat reinforcement learning met verifieerbare beloningen (bijv. GRPO) een veelbelovende richting biedt voor het trainen van kleinere modellen die hulpconstructies effectief combineren met robuust geometrisch redeneren. Het direct toepassen van GRPO op geometrisch redeneren kent echter fundamentele beperkingen vanwege de afhankelijkheid van onvoorwaardelijke beloningen, wat leidt tot ondoordachte en contraproductieve hulpconstructies. Om deze uitdagingen aan te pakken, stellen wij Group Contrastive Policy Optimization (GCPO) voor, een nieuw reinforcement learning-framework met twee belangrijke innovaties: (1) Group Contrastive Masking, dat adaptief positieve of negatieve beloningssignalen biedt voor hulpconstructies op basis van contextuele nuttigheid, en (2) een lengtebeloning die langere redeneerketens bevordert. Op basis van GCPO ontwikkelen we GeometryZero, een familie van betaalbare geometrische redeneermodellen die doordacht bepalen wanneer hulpconstructies moeten worden ingezet. Onze uitgebreide empirische evaluatie op populaire geometrische benchmarks (Geometry3K, MathVista) toont aan dat GeometryZero-modellen consistent beter presteren dan baselines (bijv. GRPO), met een gemiddelde verbetering van 4,29% op alle benchmarks.
English
Recent advances in large language models (LLMs) have demonstrated remarkable capabilities across diverse domains, particularly in mathematical reasoning, amid which geometry problem solving remains a challenging area where auxiliary construction plays a enssential role. Existing approaches either achieve suboptimal performance or rely on massive LLMs (e.g., GPT-4o), incurring massive computational costs. We posit that reinforcement learning with verifiable reward (e.g., GRPO) offers a promising direction for training smaller models that effectively combine auxiliary construction with robust geometric reasoning. However, directly applying GRPO to geometric reasoning presents fundamental limitations due to its dependence on unconditional rewards, which leads to indiscriminate and counterproductive auxiliary constructions. To address these challenges, we propose Group Contrastive Policy Optimization (GCPO), a novel reinforcement learning framework featuring two key innovations: (1) Group Contrastive Masking, which adaptively provides positive or negative reward signals for auxiliary construction based on contextual utility, and a (2) length reward that promotes longer reasoning chains. Building on GCPO, we develop GeometryZero, a family of affordable-size geometric reasoning models that judiciously determine when to employ auxiliary construction. Our extensive empirical evaluation across popular geometric benchmarks (Geometry3K, MathVista) demonstrates that GeometryZero models consistently outperform baselines (e.g. GRPO), achieving an average improvement of 4.29% across all benchmarks.
PDF32June 10, 2025