Графовое рассуждение: передача возможностей от LLM к VLM.
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
March 19, 2024
Авторы: Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma
cs.AI
Аннотация
Модели видео-языка (VLM) все чаще достигают высокой производительности в мультимодальных задачах. Однако способности к рассуждениям остаются ограниченными, особенно для небольших VLM, в то время как у моделей большого языка (LLM) были замечены многочисленные улучшения. Мы предлагаем технику передачи возможностей от LLM к VLM. На недавно представленном ChartQA наш метод достигает передовой производительности при применении к VLM PaLI3-5B от chen2023pali3, а также обеспечивает значительно лучшую производительность на PlotQA и FigureQA.
Сначала мы улучшаем представление диаграмм, продолжая этап предварительного обучения с использованием улучшенной версии задачи перевода диаграмм в таблицы от liu2023deplot. Затем мы предлагаем создание набора данных в 20 раз большего объема, чем оригинальный тренировочный набор. Для улучшения общих способностей к рассуждениям и выполнения числовых операций мы синтезируем следы рассуждений, используя таблицы в качестве представления диаграмм. Наконец, нашу модель донастраивают с использованием мультизадачной функции потерь, представленной hsieh2023distilling.
Наш вариант ChartPaLI-5B превосходит даже модели в 10 раз большего размера, такие как PaLIX-55B, без использования предварительной системы OCR, при сохранении постоянного времени вывода по сравнению с базовой моделью PaLI3-5B. Когда обоснования дополнительно уточняются с помощью простого подсказывающего программного кода chen2023program, наша модель превосходит недавно представленные Gemini Ultra и GPT-4V.
English
Vision-language models (VLMs) are achieving increasingly strong performance
on multimodal tasks. However, reasoning capabilities remain limited
particularly for smaller VLMs, while those of large-language models (LLMs) have
seen numerous improvements. We propose a technique to transfer capabilities
from LLMs to VLMs. On the recently introduced ChartQA, our method obtains
state-of-the-art performance when applied on the PaLI3-5B VLM by
chen2023pali3, while also enabling much better performance on PlotQA
and FigureQA.
We first improve the chart representation by continuing the pre-training
stage using an improved version of the chart-to-table translation task by
liu2023deplot. We then propose constructing a 20x larger dataset than
the original training set. To improve general reasoning capabilities and
improve numerical operations, we synthesize reasoning traces using the table
representation of charts. Lastly, our model is fine-tuned using the multitask
loss introduced by hsieh2023distilling.
Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B
without using an upstream OCR system, while keeping inference time constant
compared to the PaLI3-5B baseline. When rationales are further refined with a
simple program-of-thought prompt chen2023program, our model outperforms
the recently introduced Gemini Ultra and GPT-4V.Summary
AI-Generated Summary