Мультимодальное самообучение: синтетическое абстрактное изображение и визуальный рассуждения Инструктирование с использованием языковой модели

Аннотация

Хотя большинство современных крупных мультимодальных моделей (LMMs) уже могут понимать фотографии природных сцен и портретов, их понимание абстрактных изображений, например, диаграмм, карт или макетов, а также возможности визуального рассуждения остаются довольно примитивными. Они часто испытывают трудности с простыми повседневными задачами, такими как определение времени по часам, понимание блок-схемы или планирование маршрута с использованием дорожной карты. В свете этого мы разрабатываем мультимодальное самоинструктирование, используя крупные языковые модели и их возможности кодирования для синтеза массовых абстрактных изображений и визуальных инструкций по повседневным сценариям. Наш подход легко создает мультимодальный бенчмарк с 11 193 инструкциями для восьми визуальных сценариев: диаграммы, таблицы, симулированные карты, панели управления, блок-схемы, графики отношений, планы этажей и визуальные головоломки. Этот бенчмарк, созданный с помощью простых линий и геометрических элементов, выявляет недостатки большинства передовых LMMs, таких как Claude-3.5-Sonnet и GPT-4o, в понимании абстрактных изображений, рассуждениях о пространственных отношениях и выводе визуальных элементов. Кроме того, для проверки качества наших синтетических данных мы донастраиваем LMM, используя 62 476 синтетических инструкций для диаграмм, таблиц и дорожных карт. Результаты показывают улучшение понимания диаграмм и производительности навигации по карте, а также демонстрируют потенциальные преимущества для других задач визуального рассуждения. Наш код доступен по ссылке: https://github.com/zwq2018/Multi-modal-Self-instruct.

English

Although most current large multimodal models (LMMs) can already understand photos of natural scenes and portraits, their understanding of abstract images, e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite rudimentary. They often struggle with simple daily tasks, such as reading time from a clock, understanding a flowchart, or planning a route using a road map. In light of this, we design a multi-modal self-instruct, utilizing large language models and their code capabilities to synthesize massive abstract images and visual reasoning instructions across daily scenarios. Our strategy effortlessly creates a multimodal benchmark with 11,193 instructions for eight visual scenarios: charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles. This benchmark, constructed with simple lines and geometric elements, exposes the shortcomings of most advanced LMMs like Claude-3.5-Sonnet and GPT-4o in abstract image understanding, spatial relations reasoning, and visual element induction. Besides, to verify the quality of our synthetic data, we fine-tune an LMM using 62,476 synthetic chart, table and road map instructions. The results demonstrate improved chart understanding and map navigation performance, and also demonstrate potential benefits for other visual reasoning tasks. Our code is available at: https://github.com/zwq2018/Multi-modal-Self-instruct.

Мультимодальное самообучение: синтетическое абстрактное изображение и визуальный рассуждения Инструктирование с использованием языковой модели

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

Аннотация

Support