Мультимодальное самообучение: синтетическое абстрактное изображение и визуальный рассуждения Инструктирование с использованием языковой модели
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
July 9, 2024
Авторы: Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang
cs.AI
Аннотация
Хотя большинство современных крупных мультимодальных моделей (LMMs) уже могут понимать фотографии природных сцен и портретов, их понимание абстрактных изображений, например, диаграмм, карт или макетов, а также возможности визуального рассуждения остаются довольно примитивными. Они часто испытывают трудности с простыми повседневными задачами, такими как определение времени по часам, понимание блок-схемы или планирование маршрута с использованием дорожной карты. В свете этого мы разрабатываем мультимодальное самоинструктирование, используя крупные языковые модели и их возможности кодирования для синтеза массовых абстрактных изображений и визуальных инструкций по повседневным сценариям. Наш подход легко создает мультимодальный бенчмарк с 11 193 инструкциями для восьми визуальных сценариев: диаграммы, таблицы, симулированные карты, панели управления, блок-схемы, графики отношений, планы этажей и визуальные головоломки. Этот бенчмарк, созданный с помощью простых линий и геометрических элементов, выявляет недостатки большинства передовых LMMs, таких как Claude-3.5-Sonnet и GPT-4o, в понимании абстрактных изображений, рассуждениях о пространственных отношениях и выводе визуальных элементов. Кроме того, для проверки качества наших синтетических данных мы донастраиваем LMM, используя 62 476 синтетических инструкций для диаграмм, таблиц и дорожных карт. Результаты показывают улучшение понимания диаграмм и производительности навигации по карте, а также демонстрируют потенциальные преимущества для других задач визуального рассуждения. Наш код доступен по ссылке: https://github.com/zwq2018/Multi-modal-Self-instruct.
English
Although most current large multimodal models (LMMs) can already understand
photos of natural scenes and portraits, their understanding of abstract images,
e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite
rudimentary. They often struggle with simple daily tasks, such as reading time
from a clock, understanding a flowchart, or planning a route using a road map.
In light of this, we design a multi-modal self-instruct, utilizing large
language models and their code capabilities to synthesize massive abstract
images and visual reasoning instructions across daily scenarios. Our strategy
effortlessly creates a multimodal benchmark with 11,193 instructions for eight
visual scenarios: charts, tables, simulated maps, dashboards, flowcharts,
relation graphs, floor plans, and visual puzzles. This benchmark,
constructed with simple lines and geometric elements, exposes the shortcomings
of most advanced LMMs like Claude-3.5-Sonnet and GPT-4o in abstract image
understanding, spatial relations reasoning, and visual element induction.
Besides, to verify the quality of our synthetic data, we fine-tune an LMM using
62,476 synthetic chart, table and road map instructions. The results
demonstrate improved chart understanding and map navigation performance, and
also demonstrate potential benefits for other visual reasoning tasks. Our code
is available at: https://github.com/zwq2018/Multi-modal-Self-instruct.Summary
AI-Generated Summary