ChatPaper.aiChatPaper

GeoX : Résolution de problèmes géométriques grâce à la préformation unifiée formalisée Vision-Language

GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

December 16, 2024
Auteurs: Renqiu Xia, Mingsheng Li, Hancheng Ye, Wenjie Wu, Hongbin Zhou, Jiakang Yuan, Tianshuo Peng, Xinyu Cai, Xiangchao Yan, Bin Wang, Conghui He, Botian Shi, Tao Chen, Junchi Yan, Bo Zhang
cs.AI

Résumé

Malgré leur compétence dans les tâches générales, les Modèles de Langage Multimodaux à Grande Échelle (MLLM) rencontrent des difficultés dans la Résolution Automatique de Problèmes de Géométrie (GPS), qui exige la compréhension des diagrammes, l'interprétation des symboles et la réalisation de raisonnements complexes. Cette limitation découle de leur pré-entraînement sur des images naturelles et des textes, ainsi que du manque de vérification automatisée dans le processus de résolution de problèmes. De plus, les spécialistes géométriques actuels sont limités par leurs conceptions spécifiques à la tâche, ce qui les rend moins efficaces pour des problèmes géométriques plus larges. À cette fin, nous présentons GeoX, un grand modèle multimodal axé sur la compréhension géométrique et les tâches de raisonnement. Compte tenu des différences significatives entre les diagrammes-symboles géométriques et les images-textes naturelles, nous introduisons un pré-entraînement unimodal pour développer un codeur de diagramme et un décodeur de symboles, améliorant la compréhension des images et des corpus géométriques. De plus, nous introduisons l'alignement géométrie-langage, un paradigme de pré-entraînement efficace qui comble l'écart de modalité entre les experts géométriques unimodaux. Nous proposons un Transformateur Générateur-Et-Échantillonneur (GS-Former) pour générer des requêtes discriminatives et éliminer les représentations non informatives des signaux géométriques inégalement distribués. Enfin, GeoX bénéficie d'un réglage d'instruction visuelle, lui permettant de prendre des images géométriques et des questions en entrée et de générer des solutions vérifiables. Les expériences montrent que GeoX surpasse à la fois les généralistes et les spécialistes géométriques sur des benchmarks reconnus publiquement, tels que GeoQA, UniGeo, Geometry3K et PGPS9k.
English
Despite their proficiency in general tasks, Multi-modal Large Language Models (MLLMs) struggle with automatic Geometry Problem Solving (GPS), which demands understanding diagrams, interpreting symbols, and performing complex reasoning. This limitation arises from their pre-training on natural images and texts, along with the lack of automated verification in the problem-solving process. Besides, current geometric specialists are limited by their task-specific designs, making them less effective for broader geometric problems. To this end, we present GeoX, a multi-modal large model focusing on geometric understanding and reasoning tasks. Given the significant differences between geometric diagram-symbol and natural image-text, we introduce unimodal pre-training to develop a diagram encoder and symbol decoder, enhancing the understanding of geometric images and corpora. Furthermore, we introduce geometry-language alignment, an effective pre-training paradigm that bridges the modality gap between unimodal geometric experts. We propose a Generator-And-Sampler Transformer (GS-Former) to generate discriminative queries and eliminate uninformative representations from unevenly distributed geometric signals. Finally, GeoX benefits from visual instruction tuning, empowering it to take geometric images and questions as input and generate verifiable solutions. Experiments show that GeoX outperforms both generalists and geometric specialists on publicly recognized benchmarks, such as GeoQA, UniGeo, Geometry3K, and PGPS9k.

Summary

AI-Generated Summary

PDF42December 18, 2024