G-LLaVA : Résolution de problèmes géométriques avec un modèle de langage multimodal à grande échelle
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model
December 18, 2023
Auteurs: Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré une remarquable maîtrise des capacités de raisonnement et de génération de niveau humain, ce qui encourage des recherches approfondies sur leur application dans la résolution de problèmes mathématiques. Cependant, les travaux actuels se sont largement concentrés sur des problèmes mathématiques basés sur le texte, avec une investigation limitée des problèmes impliquant des informations géométriques. Pour combler cette lacune, nous visons à permettre aux LLMs de résoudre des problèmes géométriques en comprenant les entrées d'images. Nous analysons d'abord les limites des modèles de langage multimodaux actuels (MLLMs) dans ce domaine : ils peinent à comprendre avec précision les éléments géométriques de base et leurs relations. Pour surmonter ces défis, nous tirons parti des caractéristiques uniques des problèmes géométriques (telles que la forme logique géométrique unique et l'évolutivité géométrique) ainsi que de la capacité des LLMs textuels pour construire un ensemble de données géométriques multimodales enrichi basé sur des données existantes. L'ensemble de données augmenté, Geo170K, contient plus de 170 000 paires image-légende et question-réponse géométriques. En utilisant notre ensemble de données Geo170K construit, nous développons G-LLaVA, qui démontre une performance exceptionnelle dans la résolution de problèmes géométriques, surpassant significativement GPT-4-V sur le benchmark MathVista avec seulement 7 milliards de paramètres.
English
Large language models (LLMs) have shown remarkable proficiency in human-level
reasoning and generation capabilities, which encourages extensive research on
their application in mathematical problem solving. However, current work has
been largely focused on text-based mathematical problems, with limited
investigation in problems involving geometric information. Addressing this gap,
we aim to enable LLMs to solve geometric problems by understanding image input.
We first analyze the limitations of current Multimodal Large Language Models
(MLLMs) in this area: they struggle to accurately comprehending basic geometric
elements and their relationships. To overcome these challenges, we take
advantage of the unique characteristics of geometric problems (such as unique
geometric logical form, and geometric scalability) and the capacity of the
textual LLMs to build an enriched multimodal geometry dataset based on existing
data. The augmented dataset, Geo170K, contains more than 170K geometric
image-caption and question-answer pairs. Utilizing our constructed Geo170K
dataset, we develop G-LLaVA, which demonstrates exceptional performance in
solving geometric problems, significantly outperforming GPT-4-V on the
MathVista benchmark with only 7B parameters.