TrustGeoGen: Schaalbaar en formeel geverifieerd data-engine voor betrouwbare multi-modale geometrische probleemoplossing
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
April 22, 2025
Auteurs: Daocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao
cs.AI
Samenvatting
Het oplossen van wiskundige geometrische problemen (GPS) vereist vaak een effectieve integratie van multimodale informatie en verifieerbare logische samenhang. Ondanks de snelle ontwikkeling van grote taalmodellen in algemeen probleemoplossen, blijft het zowel methodologisch als qua benchmarks onopgelost, vooral gezien het feit dat bestaande synthetische GPS-benchmarks vaak niet zelf-geverifieerd zijn en ruis en tegenstrijdige informatie bevatten vanwege de illusie van LLM's. In dit artikel stellen we een schaalbare data-engine genaamd TrustGeoGen voor voor probleemgeneratie, met formele verificatie om een principiële benchmark te bieden, waarvan wij geloven dat deze de basis legt voor de verdere ontwikkeling van methoden voor GPS. De engine synthetiseert geometrische data door vier belangrijke innovaties: 1) multimodaal-uitgelijnde generatie van diagrammen, tekstuele beschrijvingen en stapsgewijze oplossingen; 2) formele verificatie die regelconforme redeneerpaden waarborgt; 3) een bootstrapping-mechanisme dat complexiteitsescalatie mogelijk maakt via recursieve staatgeneratie en 4) onze ontworpen GeoExplore-serie algoritmen die tegelijkertijd multi-oplossingsvarianten en zelf-reflectieve backtracking-sporen produceren. Door formele logische verificatie produceert TrustGeoGen de GeoTrust-200K dataset met gegarandeerde modaliteitsintegriteit, samen met de GeoTrust-test testset. Experimenten tonen aan dat state-of-the-art modellen slechts 49,17\% nauwkeurigheid behalen op GeoTrust-test, wat de evaluatiestringentie aantoont. Cruciaal is dat modellen getraind op GeoTrust OOD-generalizatie bereiken op GeoQA, wat logische inconsistenties aanzienlijk vermindert in vergelijking met pseudo-labels geannoteerd door OpenAI-o1. Onze code is beschikbaar op https://github.com/Alpha-Innovator/TrustGeoGen.
English
Mathematical geometric problem solving (GPS) often requires effective
integration of multimodal information and verifiable logical coherence. Despite
the fast development of large language models in general problem solving, it
remains unresolved regarding with both methodology and benchmarks, especially
given the fact that exiting synthetic GPS benchmarks are often not
self-verified and contain noise and self-contradicted information due to the
illusion of LLMs. In this paper, we propose a scalable data engine called
TrustGeoGen for problem generation, with formal verification to provide a
principled benchmark, which we believe lays the foundation for the further
development of methods for GPS. The engine synthesizes geometric data through
four key innovations: 1) multimodal-aligned generation of diagrams, textual
descriptions, and stepwise solutions; 2) formal verification ensuring
rule-compliant reasoning paths; 3) a bootstrapping mechanism enabling
complexity escalation via recursive state generation and 4) our devised
GeoExplore series algorithms simultaneously produce multi-solution variants and
self-reflective backtracking traces. By formal logical verification,
TrustGeoGen produces GeoTrust-200K dataset with guaranteed modality integrity,
along with GeoTrust-test testset. Experiments reveal the state-of-the-art
models achieve only 49.17\% accuracy on GeoTrust-test, demonstrating its
evaluation stringency. Crucially, models trained on GeoTrust achieve OOD
generalization on GeoQA, significantly reducing logical inconsistencies
relative to pseudo-label annotated by OpenAI-o1. Our code is available at
https://github.com/Alpha-Innovator/TrustGeoGenSummary
AI-Generated Summary