Autoinstrucción Multimodal: Imagen Abstracta Sintética y Razonamiento Visual a través de Modelos de Lenguaje
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
July 9, 2024
Autores: Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang
cs.AI
Resumen
Aunque la mayoría de los modelos multimodales grandes actuales (LMMs) ya pueden entender fotos de escenas naturales y retratos, su comprensión de imágenes abstractas, como gráficos, mapas o diseños, y sus capacidades de razonamiento visual siguen siendo bastante rudimentarias. A menudo tienen dificultades con tareas simples cotidianas, como leer la hora en un reloj, entender un diagrama de flujo o planificar una ruta utilizando un mapa de carreteras. En vista de esto, diseñamos un autoinstrucción multimodal, utilizando grandes modelos de lenguaje y sus capacidades de código para sintetizar imágenes abstractas masivas e instrucciones de razonamiento visual en escenarios diarios. Nuestra estrategia crea sin esfuerzo un punto de referencia multimodal con 11,193 instrucciones para ocho escenarios visuales: gráficos, tablas, mapas simulados, paneles de control, diagramas de flujo, grafos de relaciones, planos de planta y rompecabezas visuales. Este punto de referencia, construido con líneas simples y elementos geométricos, expone las deficiencias de la mayoría de los LMMs avanzados como Claude-3.5-Sonnet y GPT-4o en la comprensión de imágenes abstractas, el razonamiento de relaciones espaciales y la inducción de elementos visuales. Además, para verificar la calidad de nuestros datos sintéticos, ajustamos finamente un LMM utilizando 62,476 instrucciones sintéticas de gráficos, tablas y mapas de carreteras. Los resultados demuestran una mejor comprensión de gráficos y un rendimiento de navegación en mapas, y también muestran beneficios potenciales para otras tareas de razonamiento visual. Nuestro código está disponible en: https://github.com/zwq2018/Multi-modal-Self-instruct.
English
Although most current large multimodal models (LMMs) can already understand
photos of natural scenes and portraits, their understanding of abstract images,
e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite
rudimentary. They often struggle with simple daily tasks, such as reading time
from a clock, understanding a flowchart, or planning a route using a road map.
In light of this, we design a multi-modal self-instruct, utilizing large
language models and their code capabilities to synthesize massive abstract
images and visual reasoning instructions across daily scenarios. Our strategy
effortlessly creates a multimodal benchmark with 11,193 instructions for eight
visual scenarios: charts, tables, simulated maps, dashboards, flowcharts,
relation graphs, floor plans, and visual puzzles. This benchmark,
constructed with simple lines and geometric elements, exposes the shortcomings
of most advanced LMMs like Claude-3.5-Sonnet and GPT-4o in abstract image
understanding, spatial relations reasoning, and visual element induction.
Besides, to verify the quality of our synthetic data, we fine-tune an LMM using
62,476 synthetic chart, table and road map instructions. The results
demonstrate improved chart understanding and map navigation performance, and
also demonstrate potential benefits for other visual reasoning tasks. Our code
is available at: https://github.com/zwq2018/Multi-modal-Self-instruct.Summary
AI-Generated Summary