Multimodales Selbstinstrukt: Synthetisches abstraktes Bild und visuelle Schlussfolgerungsinstruktion unter Verwendung von Sprachmodellen.
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
July 9, 2024
Autoren: Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang
cs.AI
Zusammenfassung
Obwohl die meisten aktuellen großen multimodalen Modelle (LMMs) bereits Fotos von natürlichen Szenen und Porträts verstehen können, bleibt ihr Verständnis von abstrakten Bildern wie Diagrammen, Karten oder Layouts und ihre visuellen Schlussfolgerungsfähigkeiten recht rudimentär. Sie haben oft Schwierigkeiten mit einfachen täglichen Aufgaben wie dem Ablesen der Uhrzeit von einer Uhr, dem Verstehen eines Flussdiagramms oder der Planung einer Route mithilfe einer Straßenkarte. Vor diesem Hintergrund entwerfen wir ein multimodales Selbstinstrukt, das große Sprachmodelle und ihre Kodierungsfähigkeiten nutzt, um massive abstrakte Bilder und visuelle Schlussfolgerungsanweisungen über tägliche Szenarien zu synthetisieren. Unsere Strategie schafft mühelos einen multimodalen Benchmark mit 11.193 Anweisungen für acht visuelle Szenarien: Diagramme, Tabellen, simulierte Karten, Dashboards, Flussdiagramme, Beziehungsgraphen, Grundrisse und visuelle Rätsel. Dieser Benchmark, der mit einfachen Linien und geometrischen Elementen erstellt wurde, deckt die Schwächen der meisten fortschrittlichen LMMs wie Claude-3.5-Sonnet und GPT-4o im Verständnis abstrakter Bilder, räumlicher Beziehungsüberlegung und visueller Elementinduktion auf. Darüber hinaus feinabstimmen wir zur Überprüfung der Qualität unserer synthetischen Daten ein LMM unter Verwendung von 62.476 synthetischen Anweisungen für Diagramme, Tabellen und Straßenkarten. Die Ergebnisse zeigen eine verbesserte Diagrammverständnis- und Kartennavigationsleistung und zeigen auch potenzielle Vorteile für andere visuelle Schlussfolgerungsaufgaben auf. Unser Code ist verfügbar unter: https://github.com/zwq2018/Multi-modal-Self-instruct.
English
Although most current large multimodal models (LMMs) can already understand
photos of natural scenes and portraits, their understanding of abstract images,
e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite
rudimentary. They often struggle with simple daily tasks, such as reading time
from a clock, understanding a flowchart, or planning a route using a road map.
In light of this, we design a multi-modal self-instruct, utilizing large
language models and their code capabilities to synthesize massive abstract
images and visual reasoning instructions across daily scenarios. Our strategy
effortlessly creates a multimodal benchmark with 11,193 instructions for eight
visual scenarios: charts, tables, simulated maps, dashboards, flowcharts,
relation graphs, floor plans, and visual puzzles. This benchmark,
constructed with simple lines and geometric elements, exposes the shortcomings
of most advanced LMMs like Claude-3.5-Sonnet and GPT-4o in abstract image
understanding, spatial relations reasoning, and visual element induction.
Besides, to verify the quality of our synthetic data, we fine-tune an LMM using
62,476 synthetic chart, table and road map instructions. The results
demonstrate improved chart understanding and map navigation performance, and
also demonstrate potential benefits for other visual reasoning tasks. Our code
is available at: https://github.com/zwq2018/Multi-modal-Self-instruct.Summary
AI-Generated Summary