TrustGeoGen: Motor de Datos Escalable y Verificado Formalmente para la Resolución Confiable de Problemas Geométricos Multimodales
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
April 22, 2025
Autores: Daocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao
cs.AI
Resumen
La resolución de problemas geométricos matemáticos (GPS, por sus siglas en inglés) a menudo requiere una integración efectiva de información multimodal y coherencia lógica verificable. A pesar del rápido desarrollo de los modelos de lenguaje de gran escala en la resolución general de problemas, sigue sin resolverse tanto en términos metodológicos como de puntos de referencia, especialmente dado que los benchmarks sintéticos de GPS existentes a menudo no están autoverificados y contienen ruido e información contradictoria debido a la ilusión de los LLMs. En este artículo, proponemos un motor de datos escalable llamado TrustGeoGen para la generación de problemas, con verificación formal para proporcionar un benchmark fundamentado, que creemos sienta las bases para el desarrollo futuro de métodos para GPS. El motor sintetiza datos geométricos a través de cuatro innovaciones clave: 1) generación multimodal alineada de diagramas, descripciones textuales y soluciones paso a paso; 2) verificación formal que asegura rutas de razonamiento compatibles con las reglas; 3) un mecanismo de arranque que permite la escalada de complejidad mediante la generación recursiva de estados; y 4) nuestros algoritmos de la serie GeoExplore, que producen simultáneamente variantes de múltiples soluciones y trazas de retroceso autorreflexivas. Mediante la verificación lógica formal, TrustGeoGen produce el conjunto de datos GeoTrust-200K con integridad de modalidad garantizada, junto con el conjunto de pruebas GeoTrust-test. Los experimentos revelan que los modelos de última generación alcanzan solo un 49.17\% de precisión en GeoTrust-test, demostrando su rigurosidad evaluativa. Crucialmente, los modelos entrenados en GeoTrust logran generalización fuera de distribución (OOD) en GeoQA, reduciendo significativamente las inconsistencias lógicas en comparación con las anotaciones de pseudoetiquetas realizadas por OpenAI-o1. Nuestro código está disponible en https://github.com/Alpha-Innovator/TrustGeoGen.
English
Mathematical geometric problem solving (GPS) often requires effective
integration of multimodal information and verifiable logical coherence. Despite
the fast development of large language models in general problem solving, it
remains unresolved regarding with both methodology and benchmarks, especially
given the fact that exiting synthetic GPS benchmarks are often not
self-verified and contain noise and self-contradicted information due to the
illusion of LLMs. In this paper, we propose a scalable data engine called
TrustGeoGen for problem generation, with formal verification to provide a
principled benchmark, which we believe lays the foundation for the further
development of methods for GPS. The engine synthesizes geometric data through
four key innovations: 1) multimodal-aligned generation of diagrams, textual
descriptions, and stepwise solutions; 2) formal verification ensuring
rule-compliant reasoning paths; 3) a bootstrapping mechanism enabling
complexity escalation via recursive state generation and 4) our devised
GeoExplore series algorithms simultaneously produce multi-solution variants and
self-reflective backtracking traces. By formal logical verification,
TrustGeoGen produces GeoTrust-200K dataset with guaranteed modality integrity,
along with GeoTrust-test testset. Experiments reveal the state-of-the-art
models achieve only 49.17\% accuracy on GeoTrust-test, demonstrating its
evaluation stringency. Crucially, models trained on GeoTrust achieve OOD
generalization on GeoQA, significantly reducing logical inconsistencies
relative to pseudo-label annotated by OpenAI-o1. Our code is available at
https://github.com/Alpha-Innovator/TrustGeoGenSummary
AI-Generated Summary