G-LLaVA: Geometrische Problemen Oplossen met een Multi-Modaal Taalmodel op Grote Schaal
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model
December 18, 2023
Auteurs: Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke vaardigheden getoond in menselijk redeneren en generatie, wat uitgebreid onderzoek naar hun toepassing in wiskundig probleemoplossen stimuleert. Het huidige werk is echter grotendeels gericht op tekstgebaseerde wiskundige problemen, met beperkt onderzoek naar problemen die geometrische informatie bevatten. Om deze kloof te overbruggen, streven we ernaar om LLMs in staat te stellen geometrische problemen op te lossen door beeldinvoer te begrijpen. We analyseren eerst de beperkingen van huidige Multimodale Grote Taalmodellen (MLLMs) op dit gebied: ze hebben moeite met het nauwkeurig begrijpen van basale geometrische elementen en hun onderlinge relaties. Om deze uitdagingen te overwinnen, maken we gebruik van de unieke kenmerken van geometrische problemen (zoals de unieke geometrische logische vorm en geometrische schaalbaarheid) en de capaciteit van tekstuele LLMs om een verrijkt multimodaal geometrie-dataset te bouwen op basis van bestaande data. De uitgebreide dataset, Geo170K, bevat meer dan 170K geometrische afbeelding-bijschrift en vraag-antwoord paren. Met behulp van onze geconstrueerde Geo170K-dataset ontwikkelen we G-LLaVA, dat uitstekende prestaties laat zien in het oplossen van geometrische problemen en GPT-4-V aanzienlijk overtreft op de MathVista-benchmark met slechts 7B parameters.
English
Large language models (LLMs) have shown remarkable proficiency in human-level
reasoning and generation capabilities, which encourages extensive research on
their application in mathematical problem solving. However, current work has
been largely focused on text-based mathematical problems, with limited
investigation in problems involving geometric information. Addressing this gap,
we aim to enable LLMs to solve geometric problems by understanding image input.
We first analyze the limitations of current Multimodal Large Language Models
(MLLMs) in this area: they struggle to accurately comprehending basic geometric
elements and their relationships. To overcome these challenges, we take
advantage of the unique characteristics of geometric problems (such as unique
geometric logical form, and geometric scalability) and the capacity of the
textual LLMs to build an enriched multimodal geometry dataset based on existing
data. The augmented dataset, Geo170K, contains more than 170K geometric
image-caption and question-answer pairs. Utilizing our constructed Geo170K
dataset, we develop G-LLaVA, which demonstrates exceptional performance in
solving geometric problems, significantly outperforming GPT-4-V on the
MathVista benchmark with only 7B parameters.