G-LLaVA: Resolvendo Problemas Geométricos com Modelo de Linguagem Multimodal de Grande Escala
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model
December 18, 2023
Autores: Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) têm demonstrado uma proficiência notável em capacidades de raciocínio e geração em nível humano, o que incentiva pesquisas extensas sobre sua aplicação na resolução de problemas matemáticos. No entanto, o trabalho atual tem se concentrado principalmente em problemas matemáticos baseados em texto, com investigação limitada em problemas que envolvem informações geométricas. Para abordar essa lacuna, nosso objetivo é capacitar os LLMs a resolver problemas geométricos compreendendo entradas de imagens. Primeiro, analisamos as limitações dos atuais Modelos Multimodais de Grande Linguagem (MLLMs) nessa área: eles têm dificuldade em compreender com precisão elementos geométricos básicos e suas relações. Para superar esses desafios, aproveitamos as características únicas dos problemas geométricos (como a forma lógica geométrica única e a escalabilidade geométrica) e a capacidade dos LLMs textuais para construir um conjunto de dados multimodais enriquecido com base em dados existentes. O conjunto de dados aumentado, Geo170K, contém mais de 170K pares de imagem-legenda e pergunta-resposta geométricos. Utilizando nosso conjunto de dados Geo170K construído, desenvolvemos o G-LLaVA, que demonstra um desempenho excepcional na resolução de problemas geométricos, superando significativamente o GPT-4-V no benchmark MathVista com apenas 7B parâmetros.
English
Large language models (LLMs) have shown remarkable proficiency in human-level
reasoning and generation capabilities, which encourages extensive research on
their application in mathematical problem solving. However, current work has
been largely focused on text-based mathematical problems, with limited
investigation in problems involving geometric information. Addressing this gap,
we aim to enable LLMs to solve geometric problems by understanding image input.
We first analyze the limitations of current Multimodal Large Language Models
(MLLMs) in this area: they struggle to accurately comprehending basic geometric
elements and their relationships. To overcome these challenges, we take
advantage of the unique characteristics of geometric problems (such as unique
geometric logical form, and geometric scalability) and the capacity of the
textual LLMs to build an enriched multimodal geometry dataset based on existing
data. The augmented dataset, Geo170K, contains more than 170K geometric
image-caption and question-answer pairs. Utilizing our constructed Geo170K
dataset, we develop G-LLaVA, which demonstrates exceptional performance in
solving geometric problems, significantly outperforming GPT-4-V on the
MathVista benchmark with only 7B parameters.