Multimodal Self-Instruct: Synthetische Abstracte Afbeeldingen en Visueel Redeneerinstructies met Taalmodellen
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
July 9, 2024
Auteurs: Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang
cs.AI
Samenvatting
Hoewel de meeste huidige grote multimodale modellen (LMMs) al foto's van natuurlijke landschappen en portretten kunnen begrijpen, blijft hun begrip van abstracte afbeeldingen, zoals grafieken, kaarten of lay-outs, en hun visuele redeneervaardigheden vrij rudimentair. Ze hebben vaak moeite met eenvoudige dagelijkse taken, zoals het aflezen van de tijd van een klok, het begrijpen van een stroomdiagram of het plannen van een route met behulp van een wegenkaart. Gezien dit ontwerpen we een multimodale zelf-instructie, waarbij we gebruikmaken van grote taalmmodellen en hun codeervaardigheden om massaal abstracte afbeeldingen en visuele redeneerinstructies te synthetiseren in verschillende dagelijkse scenario's. Onze strategie creëert moeiteloos een multimodale benchmark met 11.193 instructies voor acht visuele scenario's: grafieken, tabellen, gesimuleerde kaarten, dashboards, stroomdiagrammen, relatiegrafieken, plattegronden en visuele puzzels. Deze benchmark, opgebouwd uit eenvoudige lijnen en geometrische elementen, legt de tekortkomingen bloot van de meest geavanceerde LMMs zoals Claude-3.5-Sonnet en GPT-4o in het begrijpen van abstracte afbeeldingen, het redeneren over ruimtelijke relaties en het induceren van visuele elementen. Daarnaast fine-tunen we een LMM met 62.476 synthetische instructies voor grafieken, tabellen en wegenkaarten om de kwaliteit van onze synthetische data te verifiëren. De resultaten tonen een verbeterd begrip van grafieken en prestaties bij kaartnavigatie, en laten ook potentiële voordelen zien voor andere visuele redeneertaken. Onze code is beschikbaar op: https://github.com/zwq2018/Multi-modal-Self-instruct.
English
Although most current large multimodal models (LMMs) can already understand
photos of natural scenes and portraits, their understanding of abstract images,
e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite
rudimentary. They often struggle with simple daily tasks, such as reading time
from a clock, understanding a flowchart, or planning a route using a road map.
In light of this, we design a multi-modal self-instruct, utilizing large
language models and their code capabilities to synthesize massive abstract
images and visual reasoning instructions across daily scenarios. Our strategy
effortlessly creates a multimodal benchmark with 11,193 instructions for eight
visual scenarios: charts, tables, simulated maps, dashboards, flowcharts,
relation graphs, floor plans, and visual puzzles. This benchmark,
constructed with simple lines and geometric elements, exposes the shortcomings
of most advanced LMMs like Claude-3.5-Sonnet and GPT-4o in abstract image
understanding, spatial relations reasoning, and visual element induction.
Besides, to verify the quality of our synthetic data, we fine-tune an LMM using
62,476 synthetic chart, table and road map instructions. The results
demonstrate improved chart understanding and map navigation performance, and
also demonstrate potential benefits for other visual reasoning tasks. Our code
is available at: https://github.com/zwq2018/Multi-modal-Self-instruct.