TrustGeoGen: Skalierbare und formal verifizierte Daten-Engine für vertrauenswürdige multimodale geometrische Problemlösung
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
April 22, 2025
Autoren: Daocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao
cs.AI
Zusammenfassung
Das Lösen mathematisch-geometrischer Probleme (GPS) erfordert oft die effektive Integration multimodaler Informationen und eine überprüfbare logische Kohärenz. Trotz der raschen Entwicklung großer Sprachmodelle im Bereich der allgemeinen Problemlösung bleiben sowohl methodische als auch Benchmark-Fragen ungelöst, insbesondere angesichts der Tatsache, dass bestehende synthetische GPS-Benchmarks oft nicht selbst überprüft sind und aufgrund der Illusion von LLMs Rauschen und widersprüchliche Informationen enthalten. In diesem Artikel schlagen wir eine skalierbare Datenengine namens TrustGeoGen zur Problemgenerierung vor, die durch formale Verifizierung einen prinzipiellen Benchmark bietet, was unserer Ansicht nach die Grundlage für die weitere Entwicklung von Methoden für GPS legt. Die Engine synthetisiert geometrische Daten durch vier Schlüsselinnovationen: 1) multimodal abgestimmte Generierung von Diagrammen, textuellen Beschreibungen und schrittweisen Lösungen; 2) formale Verifizierung, die regelkonforme Lösungswege sicherstellt; 3) ein Bootstrapping-Mechanismus, der eine Komplexitätssteigerung durch rekursive Zustandsgenerierung ermöglicht; und 4) unsere entwickelten GeoExplore-Serienalgorithmen, die gleichzeitig Mehrfachlösungsvarianten und selbstreflektive Backtracking-Spuren erzeugen. Durch formale logische Verifizierung produziert TrustGeoGen den GeoTrust-200K-Datensatz mit garantierter Modalitätsintegrität sowie den GeoTrust-test-Testdatensatz. Experimente zeigen, dass state-of-the-art Modelle auf GeoTrust-test nur eine Genauigkeit von 49,17\% erreichen, was die Strenge der Bewertung demonstriert. Entscheidend ist, dass Modelle, die auf GeoTrust trainiert wurden, eine OOD-Generalisierung auf GeoQA erreichen und logische Inkonsistenzen im Vergleich zu Pseudo-Labels, die von OpenAI-o1 annotiert wurden, signifikant reduzieren. Unser Code ist verfügbar unter https://github.com/Alpha-Innovator/TrustGeoGen.
English
Mathematical geometric problem solving (GPS) often requires effective
integration of multimodal information and verifiable logical coherence. Despite
the fast development of large language models in general problem solving, it
remains unresolved regarding with both methodology and benchmarks, especially
given the fact that exiting synthetic GPS benchmarks are often not
self-verified and contain noise and self-contradicted information due to the
illusion of LLMs. In this paper, we propose a scalable data engine called
TrustGeoGen for problem generation, with formal verification to provide a
principled benchmark, which we believe lays the foundation for the further
development of methods for GPS. The engine synthesizes geometric data through
four key innovations: 1) multimodal-aligned generation of diagrams, textual
descriptions, and stepwise solutions; 2) formal verification ensuring
rule-compliant reasoning paths; 3) a bootstrapping mechanism enabling
complexity escalation via recursive state generation and 4) our devised
GeoExplore series algorithms simultaneously produce multi-solution variants and
self-reflective backtracking traces. By formal logical verification,
TrustGeoGen produces GeoTrust-200K dataset with guaranteed modality integrity,
along with GeoTrust-test testset. Experiments reveal the state-of-the-art
models achieve only 49.17\% accuracy on GeoTrust-test, demonstrating its
evaluation stringency. Crucially, models trained on GeoTrust achieve OOD
generalization on GeoQA, significantly reducing logical inconsistencies
relative to pseudo-label annotated by OpenAI-o1. Our code is available at
https://github.com/Alpha-Innovator/TrustGeoGenSummary
AI-Generated Summary