Autoinstrução Multimodal: Imagem Abstrata Sintética e Raciocínio Visual utilizando Modelo de Linguagem

Resumo

Embora a maioria dos atuais modelos multimodais grandes (LMMs) já consiga entender fotos de cenas naturais e retratos, sua compreensão de imagens abstratas, como gráficos, mapas ou layouts, e suas capacidades de raciocínio visual ainda são bastante rudimentares. Eles frequentemente enfrentam dificuldades com tarefas simples do cotidiano, como ler a hora em um relógio, entender um fluxograma ou planejar uma rota usando um mapa rodoviário. Diante disso, projetamos um autoinstrutor multimodal, utilizando grandes modelos de linguagem e suas capacidades de codificação para sintetizar imagens abstratas massivas e instruções de raciocínio visual em cenários diários. Nossa estratégia cria facilmente um benchmark multimodal com 11.193 instruções para oito cenários visuais: gráficos, tabelas, mapas simulados, painéis, fluxogramas, grafos de relação, plantas baixas e quebra-cabeças visuais. Este benchmark, construído com linhas simples e elementos geométricos, expõe as deficiências da maioria dos LMMs avançados, como o Claude-3.5-Sonnet e o GPT-4o, na compreensão de imagens abstratas, raciocínio de relações espaciais e indução de elementos visuais. Além disso, para verificar a qualidade de nossos dados sintéticos, ajustamos finamente um LMM usando 62.476 instruções sintéticas de gráficos, tabelas e mapas rodoviários. Os resultados demonstram uma melhoria na compreensão de gráficos e no desempenho de navegação em mapas, e também mostram benefícios potenciais para outras tarefas de raciocínio visual. Nosso código está disponível em: https://github.com/zwq2018/Multi-modal-Self-instruct.

English

Although most current large multimodal models (LMMs) can already understand photos of natural scenes and portraits, their understanding of abstract images, e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite rudimentary. They often struggle with simple daily tasks, such as reading time from a clock, understanding a flowchart, or planning a route using a road map. In light of this, we design a multi-modal self-instruct, utilizing large language models and their code capabilities to synthesize massive abstract images and visual reasoning instructions across daily scenarios. Our strategy effortlessly creates a multimodal benchmark with 11,193 instructions for eight visual scenarios: charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles. This benchmark, constructed with simple lines and geometric elements, exposes the shortcomings of most advanced LMMs like Claude-3.5-Sonnet and GPT-4o in abstract image understanding, spatial relations reasoning, and visual element induction. Besides, to verify the quality of our synthetic data, we fine-tune an LMM using 62,476 synthetic chart, table and road map instructions. The results demonstrate improved chart understanding and map navigation performance, and also demonstrate potential benefits for other visual reasoning tasks. Our code is available at: https://github.com/zwq2018/Multi-modal-Self-instruct.

Autoinstrução Multimodal: Imagem Abstrata Sintética e Raciocínio Visual utilizando Modelo de Linguagem

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

Resumo

Support