TrustGeoGen : Moteur de données évolutif et formellement vérifié pour la résolution fiable de problèmes géométriques multi-modaux
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
April 22, 2025
Auteurs: Daocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao
cs.AI
Résumé
La résolution de problèmes géométriques mathématiques (GPS) nécessite souvent une intégration efficace d'informations multimodales et une cohérence logique vérifiable. Malgré le développement rapide des grands modèles de langage dans la résolution générale de problèmes, les aspects méthodologiques et les benchmarks restent non résolus, en particulier étant donné que les benchmarks synthétiques existants pour GPS ne sont souvent pas auto-vérifiés et contiennent du bruit ainsi que des informations contradictoires en raison des illusions des LLMs. Dans cet article, nous proposons un moteur de données évolutif appelé TrustGeoGen pour la génération de problèmes, avec une vérification formelle pour fournir un benchmark fondé sur des principes, ce qui, selon nous, pose les bases pour le développement ultérieur de méthodes pour GPS. Le moteur synthétise des données géométriques grâce à quatre innovations clés : 1) la génération alignée multimodalement de diagrammes, de descriptions textuelles et de solutions étape par étape ; 2) la vérification formelle assurant des chemins de raisonnement conformes aux règles ; 3) un mécanisme de bootstrapping permettant une escalade de complexité via la génération récursive d'états et 4) nos algorithmes GeoExplore conçus pour produire simultanément des variantes à solutions multiples et des traces de rétrospection auto-réfléchies. Grâce à la vérification logique formelle, TrustGeoGen produit le jeu de données GeoTrust-200K avec une intégrité modale garantie, ainsi que le jeu de test GeoTrust-test. Les expériences révèlent que les modèles de pointe n'atteignent qu'une précision de 49,17 % sur GeoTrust-test, démontrant ainsi sa rigueur d'évaluation. De manière cruciale, les modèles entraînés sur GeoTrust atteignent une généralisation hors distribution (OOD) sur GeoQA, réduisant significativement les incohérences logiques par rapport aux pseudo-labels annotés par OpenAI-o1. Notre code est disponible à l'adresse https://github.com/Alpha-Innovator/TrustGeoGen.
English
Mathematical geometric problem solving (GPS) often requires effective
integration of multimodal information and verifiable logical coherence. Despite
the fast development of large language models in general problem solving, it
remains unresolved regarding with both methodology and benchmarks, especially
given the fact that exiting synthetic GPS benchmarks are often not
self-verified and contain noise and self-contradicted information due to the
illusion of LLMs. In this paper, we propose a scalable data engine called
TrustGeoGen for problem generation, with formal verification to provide a
principled benchmark, which we believe lays the foundation for the further
development of methods for GPS. The engine synthesizes geometric data through
four key innovations: 1) multimodal-aligned generation of diagrams, textual
descriptions, and stepwise solutions; 2) formal verification ensuring
rule-compliant reasoning paths; 3) a bootstrapping mechanism enabling
complexity escalation via recursive state generation and 4) our devised
GeoExplore series algorithms simultaneously produce multi-solution variants and
self-reflective backtracking traces. By formal logical verification,
TrustGeoGen produces GeoTrust-200K dataset with guaranteed modality integrity,
along with GeoTrust-test testset. Experiments reveal the state-of-the-art
models achieve only 49.17\% accuracy on GeoTrust-test, demonstrating its
evaluation stringency. Crucially, models trained on GeoTrust achieve OOD
generalization on GeoQA, significantly reducing logical inconsistencies
relative to pseudo-label annotated by OpenAI-o1. Our code is available at
https://github.com/Alpha-Innovator/TrustGeoGenSummary
AI-Generated Summary