G-LLaVA: Решение геометрических задач с использованием мультимодальной большой языковой модели
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model
December 18, 2023
Авторы: Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющую способность к рассуждениям и генерации на уровне человека, что стимулирует активные исследования их применения в решении математических задач. Однако текущие работы в основном сосредоточены на текстовых математических задачах, с ограниченным изучением задач, включающих геометрическую информацию. Для устранения этого пробела мы стремимся научить LLM решать геометрические задачи, понимая визуальный ввод. Сначала мы анализируем ограничения современных мультимодальных крупных языковых моделей (MLLM) в этой области: они испытывают трудности с точным пониманием базовых геометрических элементов и их взаимосвязей. Чтобы преодолеть эти трудности, мы используем уникальные характеристики геометрических задач (такие как уникальная геометрическая логическая форма и масштабируемость) и возможности текстовых LLM для создания обогащенного мультимодального набора данных на основе существующих данных. Расширенный набор данных, Geo170K, содержит более 170 тысяч пар изображение-описание и вопрос-ответ, связанных с геометрией. Используя созданный нами набор данных Geo170K, мы разрабатываем G-LLaVA, которая демонстрирует выдающуюся производительность в решении геометрических задач, значительно превосходя GPT-4-V на бенчмарке MathVista при использовании всего 7 миллиардов параметров.
English
Large language models (LLMs) have shown remarkable proficiency in human-level
reasoning and generation capabilities, which encourages extensive research on
their application in mathematical problem solving. However, current work has
been largely focused on text-based mathematical problems, with limited
investigation in problems involving geometric information. Addressing this gap,
we aim to enable LLMs to solve geometric problems by understanding image input.
We first analyze the limitations of current Multimodal Large Language Models
(MLLMs) in this area: they struggle to accurately comprehending basic geometric
elements and their relationships. To overcome these challenges, we take
advantage of the unique characteristics of geometric problems (such as unique
geometric logical form, and geometric scalability) and the capacity of the
textual LLMs to build an enriched multimodal geometry dataset based on existing
data. The augmented dataset, Geo170K, contains more than 170K geometric
image-caption and question-answer pairs. Utilizing our constructed Geo170K
dataset, we develop G-LLaVA, which demonstrates exceptional performance in
solving geometric problems, significantly outperforming GPT-4-V on the
MathVista benchmark with only 7B parameters.