TrustGeoGen: Масштабируемый и формально верифицированный механизм обработки данных для надежного решения многомодальных геометрических задач
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
April 22, 2025
Авторы: Daocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao
cs.AI
Аннотация
Решение математических геометрических задач (GPS) часто требует эффективной интеграции мультимодальной информации и проверяемой логической согласованности. Несмотря на быстрое развитие крупных языковых моделей в области общего решения задач, вопросы, связанные как с методологией, так и с эталонными тестами, остаются нерешенными, особенно учитывая тот факт, что существующие синтетические эталоны GPS часто не являются самопроверяемыми и содержат шум и противоречивую информацию из-за иллюзий, создаваемых языковыми моделями. В данной статье мы предлагаем масштабируемый механизм генерации данных под названием TrustGeoGen, который включает формальную проверку для создания принципиального эталона, что, по нашему мнению, закладывает основу для дальнейшего развития методов GPS. Этот механизм синтезирует геометрические данные с помощью четырех ключевых инноваций: 1) мультимодально согласованная генерация диаграмм, текстовых описаний и пошаговых решений; 2) формальная проверка, обеспечивающая соответствие рассуждений правилам; 3) механизм бутстрэппинга, позволяющий повышать сложность за счет рекурсивной генерации состояний; и 4) разработанные нами алгоритмы серии GeoExplore, которые одновременно создают варианты с несколькими решениями и следы саморефлексивного возврата. Благодаря формальной логической проверке, TrustGeoGen создает набор данных GeoTrust-200K с гарантированной целостностью модальностей, а также тестовый набор GeoTrust-test. Эксперименты показывают, что современные модели достигают точности всего 49,17\% на GeoTrust-test, что демонстрирует строгость его оценки. Важно отметить, что модели, обученные на GeoTrust, демонстрируют обобщение на данных вне распределения (OOD) на GeoQA, значительно снижая количество логических несоответствий по сравнению с псевдоразметкой, созданной OpenAI-o1. Наш код доступен по адресу https://github.com/Alpha-Innovator/TrustGeoGen.
English
Mathematical geometric problem solving (GPS) often requires effective
integration of multimodal information and verifiable logical coherence. Despite
the fast development of large language models in general problem solving, it
remains unresolved regarding with both methodology and benchmarks, especially
given the fact that exiting synthetic GPS benchmarks are often not
self-verified and contain noise and self-contradicted information due to the
illusion of LLMs. In this paper, we propose a scalable data engine called
TrustGeoGen for problem generation, with formal verification to provide a
principled benchmark, which we believe lays the foundation for the further
development of methods for GPS. The engine synthesizes geometric data through
four key innovations: 1) multimodal-aligned generation of diagrams, textual
descriptions, and stepwise solutions; 2) formal verification ensuring
rule-compliant reasoning paths; 3) a bootstrapping mechanism enabling
complexity escalation via recursive state generation and 4) our devised
GeoExplore series algorithms simultaneously produce multi-solution variants and
self-reflective backtracking traces. By formal logical verification,
TrustGeoGen produces GeoTrust-200K dataset with guaranteed modality integrity,
along with GeoTrust-test testset. Experiments reveal the state-of-the-art
models achieve only 49.17\% accuracy on GeoTrust-test, demonstrating its
evaluation stringency. Crucially, models trained on GeoTrust achieve OOD
generalization on GeoQA, significantly reducing logical inconsistencies
relative to pseudo-label annotated by OpenAI-o1. Our code is available at
https://github.com/Alpha-Innovator/TrustGeoGenSummary
AI-Generated Summary