ChatPaper.aiChatPaper

Autoinstrucción Multimodal: Imagen Abstracta Sintética y Razonamiento Visual a través de Modelos de Lenguaje

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

July 9, 2024
Autores: Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang
cs.AI

Resumen

Aunque la mayoría de los modelos multimodales grandes actuales (LMMs) ya pueden entender fotos de escenas naturales y retratos, su comprensión de imágenes abstractas, como gráficos, mapas o diseños, y sus capacidades de razonamiento visual siguen siendo bastante rudimentarias. A menudo tienen dificultades con tareas simples cotidianas, como leer la hora en un reloj, entender un diagrama de flujo o planificar una ruta utilizando un mapa de carreteras. En vista de esto, diseñamos un autoinstrucción multimodal, utilizando grandes modelos de lenguaje y sus capacidades de código para sintetizar imágenes abstractas masivas e instrucciones de razonamiento visual en escenarios diarios. Nuestra estrategia crea sin esfuerzo un punto de referencia multimodal con 11,193 instrucciones para ocho escenarios visuales: gráficos, tablas, mapas simulados, paneles de control, diagramas de flujo, grafos de relaciones, planos de planta y rompecabezas visuales. Este punto de referencia, construido con líneas simples y elementos geométricos, expone las deficiencias de la mayoría de los LMMs avanzados como Claude-3.5-Sonnet y GPT-4o en la comprensión de imágenes abstractas, el razonamiento de relaciones espaciales y la inducción de elementos visuales. Además, para verificar la calidad de nuestros datos sintéticos, ajustamos finamente un LMM utilizando 62,476 instrucciones sintéticas de gráficos, tablas y mapas de carreteras. Los resultados demuestran una mejor comprensión de gráficos y un rendimiento de navegación en mapas, y también muestran beneficios potenciales para otras tareas de razonamiento visual. Nuestro código está disponible en: https://github.com/zwq2018/Multi-modal-Self-instruct.
English
Although most current large multimodal models (LMMs) can already understand photos of natural scenes and portraits, their understanding of abstract images, e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite rudimentary. They often struggle with simple daily tasks, such as reading time from a clock, understanding a flowchart, or planning a route using a road map. In light of this, we design a multi-modal self-instruct, utilizing large language models and their code capabilities to synthesize massive abstract images and visual reasoning instructions across daily scenarios. Our strategy effortlessly creates a multimodal benchmark with 11,193 instructions for eight visual scenarios: charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles. This benchmark, constructed with simple lines and geometric elements, exposes the shortcomings of most advanced LMMs like Claude-3.5-Sonnet and GPT-4o in abstract image understanding, spatial relations reasoning, and visual element induction. Besides, to verify the quality of our synthetic data, we fine-tune an LMM using 62,476 synthetic chart, table and road map instructions. The results demonstrate improved chart understanding and map navigation performance, and also demonstrate potential benefits for other visual reasoning tasks. Our code is available at: https://github.com/zwq2018/Multi-modal-Self-instruct.

Summary

AI-Generated Summary

PDF473November 28, 2024