Multimodal Self-Instruct : Génération synthétique d'images abstraites et instructions de raisonnement visuel à l'aide d'un modèle de langage
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
July 9, 2024
Auteurs: Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang
cs.AI
Résumé
Bien que la plupart des grands modèles multimodaux (LMM) actuels puissent déjà comprendre des photos de scènes naturelles et de portraits, leur compréhension des images abstraites, telles que les graphiques, les cartes ou les plans, ainsi que leurs capacités de raisonnement visuel, restent assez rudimentaires. Ils éprouvent souvent des difficultés avec des tâches quotidiennes simples, comme lire l'heure sur une horloge, comprendre un organigramme ou planifier un itinéraire à l'aide d'une carte routière. Face à cela, nous concevons une méthode d'auto-instruction multimodale, exploitant les grands modèles de langage et leurs capacités de génération de code pour synthétiser un grand nombre d'images abstraites et d'instructions de raisonnement visuel couvrant des scénarios quotidiens. Notre stratégie permet de créer facilement un benchmark multimodal comprenant 11 193 instructions pour huit scénarios visuels : graphiques, tableaux, cartes simulées, tableaux de bord, organigrammes, graphes relationnels, plans d'étage et puzzles visuels. Ce benchmark, construit avec des lignes simples et des éléments géométriques, met en lumière les lacunes des LMM les plus avancés, comme Claude-3.5-Sonnet et GPT-4o, dans la compréhension des images abstraites, le raisonnement sur les relations spatiales et l'induction d'éléments visuels. Par ailleurs, pour vérifier la qualité de nos données synthétiques, nous affinons un LMM en utilisant 62 476 instructions synthétiques de graphiques, tableaux et cartes routières. Les résultats montrent une amélioration de la compréhension des graphiques et de la navigation sur carte, et suggèrent également des bénéfices potentiels pour d'autres tâches de raisonnement visuel. Notre code est disponible à l'adresse : https://github.com/zwq2018/Multi-modal-Self-instruct.
English
Although most current large multimodal models (LMMs) can already understand
photos of natural scenes and portraits, their understanding of abstract images,
e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite
rudimentary. They often struggle with simple daily tasks, such as reading time
from a clock, understanding a flowchart, or planning a route using a road map.
In light of this, we design a multi-modal self-instruct, utilizing large
language models and their code capabilities to synthesize massive abstract
images and visual reasoning instructions across daily scenarios. Our strategy
effortlessly creates a multimodal benchmark with 11,193 instructions for eight
visual scenarios: charts, tables, simulated maps, dashboards, flowcharts,
relation graphs, floor plans, and visual puzzles. This benchmark,
constructed with simple lines and geometric elements, exposes the shortcomings
of most advanced LMMs like Claude-3.5-Sonnet and GPT-4o in abstract image
understanding, spatial relations reasoning, and visual element induction.
Besides, to verify the quality of our synthetic data, we fine-tune an LMM using
62,476 synthetic chart, table and road map instructions. The results
demonstrate improved chart understanding and map navigation performance, and
also demonstrate potential benefits for other visual reasoning tasks. Our code
is available at: https://github.com/zwq2018/Multi-modal-Self-instruct.Summary
AI-Generated Summary