GeometryZero: Verbetering van Geometrieoplossing voor LLM met Groepsgecontrasteerde Beleidsoptimalisatie
GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization
June 8, 2025
Auteurs: Yikun Wang, Yibin Wang, Dianyi Wang, Zimian Peng, Qipeng Guo, Dacheng Tao, Jiaqi Wang
cs.AI
Samenvatting
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben opmerkelijke
capaciteiten getoond in diverse domeinen, met name in wiskundig redeneren,
waarbij het oplossen van geometrieproblemen een uitdagend gebied blijft waar
hulpconstructies een essentiële rol spelen. Bestaande benaderingen leveren
suboptimale prestaties of zijn afhankelijk van enorme LLMs (bijv. GPT-4o), wat
grote rekenkosten met zich meebrengt. Wij stellen dat reinforcement learning
met verifieerbare beloningen (bijv. GRPO) een veelbelovende richting biedt voor
het trainen van kleinere modellen die hulpconstructies effectief combineren met
robuust geometrisch redeneren. Het direct toepassen van GRPO op geometrisch
redeneren kent echter fundamentele beperkingen vanwege de afhankelijkheid van
onvoorwaardelijke beloningen, wat leidt tot ondoordachte en contraproductieve
hulpconstructies. Om deze uitdagingen aan te pakken, stellen wij Group
Contrastive Policy Optimization (GCPO) voor, een nieuw reinforcement
learning-framework met twee belangrijke innovaties: (1) Group Contrastive
Masking, dat adaptief positieve of negatieve beloningssignalen biedt voor
hulpconstructies op basis van contextuele nuttigheid, en (2) een lengtebeloning
die langere redeneerketens bevordert. Op basis van GCPO ontwikkelen we
GeometryZero, een familie van betaalbare geometrische redeneermodellen die
doordacht bepalen wanneer hulpconstructies moeten worden ingezet. Onze uitgebreide
empirische evaluatie op populaire geometrische benchmarks (Geometry3K, MathVista)
toont aan dat GeometryZero-modellen consistent beter presteren dan
baselines (bijv. GRPO), met een gemiddelde verbetering van 4,29% op alle
benchmarks.
English
Recent advances in large language models (LLMs) have demonstrated remarkable
capabilities across diverse domains, particularly in mathematical reasoning,
amid which geometry problem solving remains a challenging area where auxiliary
construction plays a enssential role. Existing approaches either achieve
suboptimal performance or rely on massive LLMs (e.g., GPT-4o), incurring
massive computational costs. We posit that reinforcement learning with
verifiable reward (e.g., GRPO) offers a promising direction for training
smaller models that effectively combine auxiliary construction with robust
geometric reasoning. However, directly applying GRPO to geometric reasoning
presents fundamental limitations due to its dependence on unconditional
rewards, which leads to indiscriminate and counterproductive auxiliary
constructions. To address these challenges, we propose Group Contrastive Policy
Optimization (GCPO), a novel reinforcement learning framework featuring two key
innovations: (1) Group Contrastive Masking, which adaptively provides positive
or negative reward signals for auxiliary construction based on contextual
utility, and a (2) length reward that promotes longer reasoning chains.
Building on GCPO, we develop GeometryZero, a family of affordable-size
geometric reasoning models that judiciously determine when to employ auxiliary
construction. Our extensive empirical evaluation across popular geometric
benchmarks (Geometry3K, MathVista) demonstrates that GeometryZero models
consistently outperform baselines (e.g. GRPO), achieving an average improvement
of 4.29% across all benchmarks.