GeometryZero: Aprimorando a Resolução de Geometria para LLMs com Otimização de Política por Contraste de Grupo
GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization
June 8, 2025
Autores: Yikun Wang, Yibin Wang, Dianyi Wang, Zimian Peng, Qipeng Guo, Dacheng Tao, Jiaqi Wang
cs.AI
Resumo
Avanços recentes em modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em diversos domínios, particularmente no raciocínio matemático, no qual a resolução de problemas de geometria permanece uma área desafiadora onde a construção auxiliar desempenha um papel essencial. As abordagens existentes ou alcançam desempenho subótimo ou dependem de LLMs massivos (por exemplo, GPT-4o), incorrendo em custos computacionais elevados. Postulamos que o aprendizado por reforço com recompensa verificável (por exemplo, GRPO) oferece uma direção promissora para treinar modelos menores que combinam efetivamente a construção auxiliar com um raciocínio geométrico robusto. No entanto, a aplicação direta do GRPO ao raciocínio geométrico apresenta limitações fundamentais devido à sua dependência de recompensas incondicionais, o que leva a construções auxiliares indiscriminadas e contraproducentes. Para enfrentar esses desafios, propomos o Group Contrastive Policy Optimization (GCPO), um novo framework de aprendizado por reforço que apresenta duas inovações principais: (1) Group Contrastive Masking, que fornece sinais de recompensa positivos ou negativos para a construção auxiliar com base na utilidade contextual, e (2) uma recompensa de comprimento que promove cadeias de raciocínio mais longas. Com base no GCPO, desenvolvemos o GeometryZero, uma família de modelos de raciocínio geométrico de tamanho acessível que determinam criteriosamente quando empregar a construção auxiliar. Nossa extensa avaliação empírica em benchmarks geométricos populares (Geometry3K, MathVista) demonstra que os modelos GeometryZero superam consistentemente as linhas de base (por exemplo, GRPO), alcançando uma melhoria média de 4,29% em todos os benchmarks.
English
Recent advances in large language models (LLMs) have demonstrated remarkable
capabilities across diverse domains, particularly in mathematical reasoning,
amid which geometry problem solving remains a challenging area where auxiliary
construction plays a enssential role. Existing approaches either achieve
suboptimal performance or rely on massive LLMs (e.g., GPT-4o), incurring
massive computational costs. We posit that reinforcement learning with
verifiable reward (e.g., GRPO) offers a promising direction for training
smaller models that effectively combine auxiliary construction with robust
geometric reasoning. However, directly applying GRPO to geometric reasoning
presents fundamental limitations due to its dependence on unconditional
rewards, which leads to indiscriminate and counterproductive auxiliary
constructions. To address these challenges, we propose Group Contrastive Policy
Optimization (GCPO), a novel reinforcement learning framework featuring two key
innovations: (1) Group Contrastive Masking, which adaptively provides positive
or negative reward signals for auxiliary construction based on contextual
utility, and a (2) length reward that promotes longer reasoning chains.
Building on GCPO, we develop GeometryZero, a family of affordable-size
geometric reasoning models that judiciously determine when to employ auxiliary
construction. Our extensive empirical evaluation across popular geometric
benchmarks (Geometry3K, MathVista) demonstrates that GeometryZero models
consistently outperform baselines (e.g. GRPO), achieving an average improvement
of 4.29% across all benchmarks.