G-LLaVA: Risoluzione di Problemi Geometrici con Modelli Linguistici Multimodali di Grande Scala
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model
December 18, 2023
Autori: Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato una notevole competenza nelle capacità di ragionamento e generazione a livello umano, incoraggiando un'ampia ricerca sulla loro applicazione nella risoluzione di problemi matematici. Tuttavia, il lavoro attuale si è concentrato principalmente su problemi matematici basati su testo, con un'indagine limitata sui problemi che coinvolgono informazioni geometriche. Per colmare questa lacuna, miriamo a consentire agli LLM di risolvere problemi geometrici comprendendo input di immagini. Iniziamo analizzando i limiti degli attuali Modelli Linguistici Multimodali (MLLM) in questo ambito: faticano a comprendere accuratamente gli elementi geometrici di base e le loro relazioni. Per superare queste sfide, sfruttiamo le caratteristiche uniche dei problemi geometrici (come la forma logica geometrica unica e la scalabilità geometrica) e la capacità degli LLM testuali per costruire un dataset multimodale arricchito basato su dati esistenti. Il dataset ampliato, Geo170K, contiene oltre 170K coppie immagine-didascalia e domanda-risposta geometriche. Utilizzando il nostro dataset Geo170K, sviluppiamo G-LLaVA, che dimostra prestazioni eccezionali nella risoluzione di problemi geometrici, superando significativamente GPT-4-V sul benchmark MathVista con soli 7B parametri.
English
Large language models (LLMs) have shown remarkable proficiency in human-level
reasoning and generation capabilities, which encourages extensive research on
their application in mathematical problem solving. However, current work has
been largely focused on text-based mathematical problems, with limited
investigation in problems involving geometric information. Addressing this gap,
we aim to enable LLMs to solve geometric problems by understanding image input.
We first analyze the limitations of current Multimodal Large Language Models
(MLLMs) in this area: they struggle to accurately comprehending basic geometric
elements and their relationships. To overcome these challenges, we take
advantage of the unique characteristics of geometric problems (such as unique
geometric logical form, and geometric scalability) and the capacity of the
textual LLMs to build an enriched multimodal geometry dataset based on existing
data. The augmented dataset, Geo170K, contains more than 170K geometric
image-caption and question-answer pairs. Utilizing our constructed Geo170K
dataset, we develop G-LLaVA, which demonstrates exceptional performance in
solving geometric problems, significantly outperforming GPT-4-V on the
MathVista benchmark with only 7B parameters.