GeoX: Геометрическое решение проблем через унифицированное формализованное предварительное обучение на основе зрительного и языкового восприятия.
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training
December 16, 2024
Авторы: Renqiu Xia, Mingsheng Li, Hancheng Ye, Wenjie Wu, Hongbin Zhou, Jiakang Yuan, Tianshuo Peng, Xinyu Cai, Xiangchao Yan, Bin Wang, Conghui He, Botian Shi, Tao Chen, Junchi Yan, Bo Zhang
cs.AI
Аннотация
Несмотря на свою компетентность в общих задачах, многомодальные модели с большим языковым объемом (MLLM) испытывают трудности с автоматическим решением геометрических задач (GPS), которое требует понимания диаграмм, интерпретации символов и выполнения сложного рассуждения. Это ограничение возникает из-за их предварительного обучения на естественных изображениях и текстах, а также из-за отсутствия автоматизированной верификации в процессе решения задач. Более того, текущие геометрические специалисты ограничены своими задаче-специфичными конструкциями, что делает их менее эффективными для более широких геометрических задач. В этой связи мы представляем GeoX, многомодальную крупную модель, сосредоточенную на геометрическом понимании и рассуждениях. Учитывая значительные различия между геометрическими диаграммами-символами и естественными изображениями-текстом, мы вводим унимодальное предварительное обучение для развития кодера диаграмм и декодера символов, улучшая понимание геометрических изображений и корпусов. Кроме того, мы представляем выравнивание геометрии-языка, эффективную парадигму предварительного обучения, которая сокращает разрыв между унимодальными геометрическими экспертами. Мы предлагаем трансформер Генератор-и-Выборка (GS-Former) для генерации дискриминирующих запросов и устранения неинформативных представлений из неравномерно распределенных геометрических сигналов. Наконец, GeoX получает преимущество от настройки визуальных инструкций, давая ему возможность принимать геометрические изображения и вопросы в качестве входных данных и генерировать проверяемые решения. Эксперименты показывают, что GeoX превосходит как общих специалистов, так и геометрических специалистов на общепризнанных бенчмарках, таких как GeoQA, UniGeo, Geometry3K и PGPS9k.
English
Despite their proficiency in general tasks, Multi-modal Large Language Models
(MLLMs) struggle with automatic Geometry Problem Solving (GPS), which demands
understanding diagrams, interpreting symbols, and performing complex reasoning.
This limitation arises from their pre-training on natural images and texts,
along with the lack of automated verification in the problem-solving process.
Besides, current geometric specialists are limited by their task-specific
designs, making them less effective for broader geometric problems. To this
end, we present GeoX, a multi-modal large model focusing on geometric
understanding and reasoning tasks. Given the significant differences between
geometric diagram-symbol and natural image-text, we introduce unimodal
pre-training to develop a diagram encoder and symbol decoder, enhancing the
understanding of geometric images and corpora. Furthermore, we introduce
geometry-language alignment, an effective pre-training paradigm that bridges
the modality gap between unimodal geometric experts. We propose a
Generator-And-Sampler Transformer (GS-Former) to generate discriminative
queries and eliminate uninformative representations from unevenly distributed
geometric signals. Finally, GeoX benefits from visual instruction tuning,
empowering it to take geometric images and questions as input and generate
verifiable solutions. Experiments show that GeoX outperforms both generalists
and geometric specialists on publicly recognized benchmarks, such as GeoQA,
UniGeo, Geometry3K, and PGPS9k.Summary
AI-Generated Summary