ChatPaper.aiChatPaper

Multimodal Self-Instruct: Synthetische Abstracte Afbeeldingen en Visueel Redeneerinstructies met Taalmodellen

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

July 9, 2024
Auteurs: Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang
cs.AI

Samenvatting

Hoewel de meeste huidige grote multimodale modellen (LMMs) al foto's van natuurlijke landschappen en portretten kunnen begrijpen, blijft hun begrip van abstracte afbeeldingen, zoals grafieken, kaarten of lay-outs, en hun visuele redeneervaardigheden vrij rudimentair. Ze hebben vaak moeite met eenvoudige dagelijkse taken, zoals het aflezen van de tijd van een klok, het begrijpen van een stroomdiagram of het plannen van een route met behulp van een wegenkaart. Gezien dit ontwerpen we een multimodale zelf-instructie, waarbij we gebruikmaken van grote taalmmodellen en hun codeervaardigheden om massaal abstracte afbeeldingen en visuele redeneerinstructies te synthetiseren in verschillende dagelijkse scenario's. Onze strategie creëert moeiteloos een multimodale benchmark met 11.193 instructies voor acht visuele scenario's: grafieken, tabellen, gesimuleerde kaarten, dashboards, stroomdiagrammen, relatiegrafieken, plattegronden en visuele puzzels. Deze benchmark, opgebouwd uit eenvoudige lijnen en geometrische elementen, legt de tekortkomingen bloot van de meest geavanceerde LMMs zoals Claude-3.5-Sonnet en GPT-4o in het begrijpen van abstracte afbeeldingen, het redeneren over ruimtelijke relaties en het induceren van visuele elementen. Daarnaast fine-tunen we een LMM met 62.476 synthetische instructies voor grafieken, tabellen en wegenkaarten om de kwaliteit van onze synthetische data te verifiëren. De resultaten tonen een verbeterd begrip van grafieken en prestaties bij kaartnavigatie, en laten ook potentiële voordelen zien voor andere visuele redeneertaken. Onze code is beschikbaar op: https://github.com/zwq2018/Multi-modal-Self-instruct.
English
Although most current large multimodal models (LMMs) can already understand photos of natural scenes and portraits, their understanding of abstract images, e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite rudimentary. They often struggle with simple daily tasks, such as reading time from a clock, understanding a flowchart, or planning a route using a road map. In light of this, we design a multi-modal self-instruct, utilizing large language models and their code capabilities to synthesize massive abstract images and visual reasoning instructions across daily scenarios. Our strategy effortlessly creates a multimodal benchmark with 11,193 instructions for eight visual scenarios: charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles. This benchmark, constructed with simple lines and geometric elements, exposes the shortcomings of most advanced LMMs like Claude-3.5-Sonnet and GPT-4o in abstract image understanding, spatial relations reasoning, and visual element induction. Besides, to verify the quality of our synthetic data, we fine-tune an LMM using 62,476 synthetic chart, table and road map instructions. The results demonstrate improved chart understanding and map navigation performance, and also demonstrate potential benefits for other visual reasoning tasks. Our code is available at: https://github.com/zwq2018/Multi-modal-Self-instruct.
PDF473February 7, 2026