ChatPaper.aiChatPaper

GeometryZero: Verbesserung der Geometrielösung für LLM durch Gruppenkontrastive Politikoptimierung

GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization

June 8, 2025
Autoren: Yikun Wang, Yibin Wang, Dianyi Wang, Zimian Peng, Qipeng Guo, Dacheng Tao, Jiaqi Wang
cs.AI

Zusammenfassung

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Domänen gezeigt, insbesondere im Bereich des mathematischen Denkens, wobei die Lösung geometrischer Probleme nach wie vor eine herausfordernde Domäne bleibt, in der Hilfskonstruktionen eine entscheidende Rolle spielen. Bestehende Ansätze erzielen entweder suboptimale Leistungen oder setzen auf massive LLMs (z. B. GPT-4o), was erhebliche Rechenkosten verursacht. Wir vertreten die Ansicht, dass Verstärkungslernen mit überprüfbaren Belohnungen (z. B. GRPO) eine vielversprechende Richtung für das Training kleinerer Modelle bietet, die Hilfskonstruktionen effektiv mit robustem geometrischen Denken kombinieren. Die direkte Anwendung von GRPO auf geometrisches Denken stößt jedoch auf grundlegende Grenzen, da es von bedingungslosen Belohnungen abhängt, was zu undifferenzierten und kontraproduktiven Hilfskonstruktionen führt. Um diese Herausforderungen zu bewältigen, schlagen wir Group Contrastive Policy Optimization (GCPO) vor, ein neuartiges Verstärkungslern-Framework mit zwei zentralen Innovationen: (1) Group Contrastive Masking, das adaptiv positive oder negative Belohnungssignale für Hilfskonstruktionen basierend auf kontextueller Nützlichkeit bereitstellt, und (2) eine Längenbelohnung, die längere Denkketten fördert. Aufbauend auf GCPO entwickeln wir GeometryZero, eine Familie von geometrischen Denkmodellen mit überschaubarer Größe, die gezielt entscheiden, wann Hilfskonstruktionen eingesetzt werden sollen. Unsere umfangreiche empirische Auswertung über gängige geometrische Benchmarks (Geometry3K, MathVista) zeigt, dass GeometryZero-Modelle durchweg Baselines (z. B. GRPO) übertreffen und eine durchschnittliche Verbesserung von 4,29 % über alle Benchmarks hinweg erzielen.
English
Recent advances in large language models (LLMs) have demonstrated remarkable capabilities across diverse domains, particularly in mathematical reasoning, amid which geometry problem solving remains a challenging area where auxiliary construction plays a enssential role. Existing approaches either achieve suboptimal performance or rely on massive LLMs (e.g., GPT-4o), incurring massive computational costs. We posit that reinforcement learning with verifiable reward (e.g., GRPO) offers a promising direction for training smaller models that effectively combine auxiliary construction with robust geometric reasoning. However, directly applying GRPO to geometric reasoning presents fundamental limitations due to its dependence on unconditional rewards, which leads to indiscriminate and counterproductive auxiliary constructions. To address these challenges, we propose Group Contrastive Policy Optimization (GCPO), a novel reinforcement learning framework featuring two key innovations: (1) Group Contrastive Masking, which adaptively provides positive or negative reward signals for auxiliary construction based on contextual utility, and a (2) length reward that promotes longer reasoning chains. Building on GCPO, we develop GeometryZero, a family of affordable-size geometric reasoning models that judiciously determine when to employ auxiliary construction. Our extensive empirical evaluation across popular geometric benchmarks (Geometry3K, MathVista) demonstrates that GeometryZero models consistently outperform baselines (e.g. GRPO), achieving an average improvement of 4.29% across all benchmarks.
PDF32June 10, 2025