G-LLaVA: Lösung geometrischer Probleme mit einem multimodalen Large Language Model
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model
December 18, 2023
Autoren: Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben eine bemerkenswerte Fähigkeit in menschenähnlichem Denken und Generierungsfähigkeiten gezeigt, was umfangreiche Forschungen zu ihrer Anwendung bei der Lösung mathematischer Probleme fördert. Bisherige Arbeiten konzentrierten sich jedoch weitgehend auf textbasierte mathematische Probleme, mit begrenzter Untersuchung von Problemen, die geometrische Informationen beinhalten. Um diese Lücke zu schließen, zielen wir darauf ab, LLMs in die Lage zu versetzen, geometrische Probleme zu lösen, indem sie Bildinformationen verstehen. Wir analysieren zunächst die Grenzen aktueller Multimodaler Großer Sprachmodelle (MLLMs) in diesem Bereich: Sie haben Schwierigkeiten, grundlegende geometrische Elemente und ihre Beziehungen präzise zu erfassen. Um diese Herausforderungen zu bewältigen, nutzen wir die einzigartigen Eigenschaften geometrischer Probleme (wie die einzigartige geometrische Logikform und geometrische Skalierbarkeit) sowie die Fähigkeiten textbasierter LLMs, um einen angereicherten multimodalen Geometrie-Datensatz auf Basis bestehender Daten zu erstellen. Der erweiterte Datensatz, Geo170K, enthält mehr als 170.000 geometrische Bild-Beschreibungs- und Frage-Antwort-Paare. Mit unserem konstruierten Geo170K-Datensatz entwickeln wir G-LLaVA, das eine außergewöhnliche Leistung bei der Lösung geometrischer Probleme zeigt und GPT-4-V auf dem MathVista-Benchmark mit nur 7B Parametern deutlich übertrifft.
English
Large language models (LLMs) have shown remarkable proficiency in human-level
reasoning and generation capabilities, which encourages extensive research on
their application in mathematical problem solving. However, current work has
been largely focused on text-based mathematical problems, with limited
investigation in problems involving geometric information. Addressing this gap,
we aim to enable LLMs to solve geometric problems by understanding image input.
We first analyze the limitations of current Multimodal Large Language Models
(MLLMs) in this area: they struggle to accurately comprehending basic geometric
elements and their relationships. To overcome these challenges, we take
advantage of the unique characteristics of geometric problems (such as unique
geometric logical form, and geometric scalability) and the capacity of the
textual LLMs to build an enriched multimodal geometry dataset based on existing
data. The augmented dataset, Geo170K, contains more than 170K geometric
image-caption and question-answer pairs. Utilizing our constructed Geo170K
dataset, we develop G-LLaVA, which demonstrates exceptional performance in
solving geometric problems, significantly outperforming GPT-4-V on the
MathVista benchmark with only 7B parameters.