Autoinstrução Multimodal: Imagem Abstrata Sintética e Raciocínio Visual utilizando Modelo de Linguagem
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
July 9, 2024
Autores: Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang
cs.AI
Resumo
Embora a maioria dos atuais modelos multimodais grandes (LMMs) já consiga entender fotos de cenas naturais e retratos, sua compreensão de imagens abstratas, como gráficos, mapas ou layouts, e suas capacidades de raciocínio visual ainda são bastante rudimentares. Eles frequentemente enfrentam dificuldades com tarefas simples do cotidiano, como ler a hora em um relógio, entender um fluxograma ou planejar uma rota usando um mapa rodoviário. Diante disso, projetamos um autoinstrutor multimodal, utilizando grandes modelos de linguagem e suas capacidades de codificação para sintetizar imagens abstratas massivas e instruções de raciocínio visual em cenários diários. Nossa estratégia cria facilmente um benchmark multimodal com 11.193 instruções para oito cenários visuais: gráficos, tabelas, mapas simulados, painéis, fluxogramas, grafos de relação, plantas baixas e quebra-cabeças visuais. Este benchmark, construído com linhas simples e elementos geométricos, expõe as deficiências da maioria dos LMMs avançados, como o Claude-3.5-Sonnet e o GPT-4o, na compreensão de imagens abstratas, raciocínio de relações espaciais e indução de elementos visuais. Além disso, para verificar a qualidade de nossos dados sintéticos, ajustamos finamente um LMM usando 62.476 instruções sintéticas de gráficos, tabelas e mapas rodoviários. Os resultados demonstram uma melhoria na compreensão de gráficos e no desempenho de navegação em mapas, e também mostram benefícios potenciais para outras tarefas de raciocínio visual. Nosso código está disponível em: https://github.com/zwq2018/Multi-modal-Self-instruct.
English
Although most current large multimodal models (LMMs) can already understand
photos of natural scenes and portraits, their understanding of abstract images,
e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite
rudimentary. They often struggle with simple daily tasks, such as reading time
from a clock, understanding a flowchart, or planning a route using a road map.
In light of this, we design a multi-modal self-instruct, utilizing large
language models and their code capabilities to synthesize massive abstract
images and visual reasoning instructions across daily scenarios. Our strategy
effortlessly creates a multimodal benchmark with 11,193 instructions for eight
visual scenarios: charts, tables, simulated maps, dashboards, flowcharts,
relation graphs, floor plans, and visual puzzles. This benchmark,
constructed with simple lines and geometric elements, exposes the shortcomings
of most advanced LMMs like Claude-3.5-Sonnet and GPT-4o in abstract image
understanding, spatial relations reasoning, and visual element induction.
Besides, to verify the quality of our synthetic data, we fine-tune an LMM using
62,476 synthetic chart, table and road map instructions. The results
demonstrate improved chart understanding and map navigation performance, and
also demonstrate potential benefits for other visual reasoning tasks. Our code
is available at: https://github.com/zwq2018/Multi-modal-Self-instruct.