G-LLaVA: Resolución de Problemas Geométricos con un Modelo de Lenguaje Multimodal de Gran Escala
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model
December 18, 2023
Autores: Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una notable competencia en capacidades de razonamiento y generación a nivel humano, lo que fomenta una extensa investigación sobre su aplicación en la resolución de problemas matemáticos. Sin embargo, el trabajo actual se ha centrado principalmente en problemas matemáticos basados en texto, con una investigación limitada en problemas que involucran información geométrica. Para abordar esta brecha, nuestro objetivo es capacitar a los LLMs para resolver problemas geométricos mediante la comprensión de entradas de imágenes. Primero, analizamos las limitaciones de los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs) en esta área: tienen dificultades para comprender con precisión los elementos geométricos básicos y sus relaciones. Para superar estos desafíos, aprovechamos las características únicas de los problemas geométricos (como la forma lógica geométrica única y la escalabilidad geométrica) y la capacidad de los LLMs textuales para construir un conjunto de datos multimodal enriquecido basado en datos existentes. El conjunto de datos aumentado, Geo170K, contiene más de 170K pares de imagen-leyenda y pregunta-respuesta geométricos. Utilizando nuestro conjunto de datos Geo170K construido, desarrollamos G-LLaVA, que demuestra un rendimiento excepcional en la resolución de problemas geométricos, superando significativamente a GPT-4-V en el benchmark MathVista con solo 7B parámetros.
English
Large language models (LLMs) have shown remarkable proficiency in human-level
reasoning and generation capabilities, which encourages extensive research on
their application in mathematical problem solving. However, current work has
been largely focused on text-based mathematical problems, with limited
investigation in problems involving geometric information. Addressing this gap,
we aim to enable LLMs to solve geometric problems by understanding image input.
We first analyze the limitations of current Multimodal Large Language Models
(MLLMs) in this area: they struggle to accurately comprehending basic geometric
elements and their relationships. To overcome these challenges, we take
advantage of the unique characteristics of geometric problems (such as unique
geometric logical form, and geometric scalability) and the capacity of the
textual LLMs to build an enriched multimodal geometry dataset based on existing
data. The augmented dataset, Geo170K, contains more than 170K geometric
image-caption and question-answer pairs. Utilizing our constructed Geo170K
dataset, we develop G-LLaVA, which demonstrates exceptional performance in
solving geometric problems, significantly outperforming GPT-4-V on the
MathVista benchmark with only 7B parameters.