Multimodal Self-Instruct: Istruzioni Sintetiche per Immagini Astratte e Ragionamento Visivo Utilizzando Modelli Linguistici
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
July 9, 2024
Autori: Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang
cs.AI
Abstract
Sebbene la maggior parte degli attuali modelli multimodali di grandi dimensioni (LMM) sia già in grado di comprendere foto di scene naturali e ritratti, la loro comprensione di immagini astratte, come grafici, mappe o layout, e le capacità di ragionamento visivo rimangono piuttosto rudimentali. Spesso hanno difficoltà con semplici compiti quotidiani, come leggere l'ora da un orologio, comprendere un diagramma di flusso o pianificare un percorso utilizzando una mappa stradale. Alla luce di ciò, progettiamo un'istruzione multimodale automatica, sfruttando i modelli linguistici di grandi dimensioni e le loro capacità di codifica per sintetizzare un vasto numero di immagini astratte e istruzioni di ragionamento visivo in scenari quotidiani. La nostra strategia crea senza sforzo un benchmark multimodale con 11.193 istruzioni per otto scenari visivi: grafici, tabelle, mappe simulate, dashboard, diagrammi di flusso, grafici relazionali, planimetrie e puzzle visivi. Questo benchmark, costruito con semplici linee ed elementi geometrici, mette in luce le carenze dei più avanzati LMM come Claude-3.5-Sonnet e GPT-4o nella comprensione di immagini astratte, nel ragionamento sulle relazioni spaziali e nell'induzione di elementi visivi. Inoltre, per verificare la qualità dei nostri dati sintetici, ottimizziamo un LMM utilizzando 62.476 istruzioni sintetiche su grafici, tabelle e mappe stradali. I risultati dimostrano un miglioramento nella comprensione dei grafici e nelle prestazioni di navigazione su mappe, e mostrano anche potenziali benefici per altre attività di ragionamento visivo. Il nostro codice è disponibile all'indirizzo: https://github.com/zwq2018/Multi-modal-Self-instruct.
English
Although most current large multimodal models (LMMs) can already understand
photos of natural scenes and portraits, their understanding of abstract images,
e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite
rudimentary. They often struggle with simple daily tasks, such as reading time
from a clock, understanding a flowchart, or planning a route using a road map.
In light of this, we design a multi-modal self-instruct, utilizing large
language models and their code capabilities to synthesize massive abstract
images and visual reasoning instructions across daily scenarios. Our strategy
effortlessly creates a multimodal benchmark with 11,193 instructions for eight
visual scenarios: charts, tables, simulated maps, dashboards, flowcharts,
relation graphs, floor plans, and visual puzzles. This benchmark,
constructed with simple lines and geometric elements, exposes the shortcomings
of most advanced LMMs like Claude-3.5-Sonnet and GPT-4o in abstract image
understanding, spatial relations reasoning, and visual element induction.
Besides, to verify the quality of our synthetic data, we fine-tune an LMM using
62,476 synthetic chart, table and road map instructions. The results
demonstrate improved chart understanding and map navigation performance, and
also demonstrate potential benefits for other visual reasoning tasks. Our code
is available at: https://github.com/zwq2018/Multi-modal-Self-instruct.