Ragionamento basato su grafici: Trasferimento di capacità da LLM a VLM
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
March 19, 2024
Autori: Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) stanno raggiungendo prestazioni sempre più elevate nei compiti multimodali. Tuttavia, le capacità di ragionamento rimangono limitate, specialmente per i VLMs più piccoli, mentre quelle dei modelli linguistici di grandi dimensioni (LLMs) hanno visto numerosi miglioramenti. Proponiamo una tecnica per trasferire le capacità dagli LLMs ai VLMs. Sul recentemente introdotto ChartQA, il nostro metodo ottiene prestazioni all'avanguardia quando applicato al VLM PaLI3-5B di chen2023pali3, consentendo anche prestazioni molto migliori su PlotQA e FigureQA.
In primo luogo, miglioriamo la rappresentazione dei grafici continuando la fase di pre-addestramento utilizzando una versione migliorata del compito di traduzione da grafico a tabella di liu2023deplot. Proponiamo poi di costruire un dataset 20 volte più grande rispetto al set di addestramento originale. Per migliorare le capacità di ragionamento generale e le operazioni numeriche, sintetizziamo tracce di ragionamento utilizzando la rappresentazione tabellare dei grafici. Infine, il nostro modello viene messo a punto utilizzando la funzione di perdita multitask introdotta da hsieh2023distilling.
La nostra variante ChartPaLI-5B supera anche modelli 10 volte più grandi come PaLIX-55B senza utilizzare un sistema OCR a monte, mantenendo costante il tempo di inferenza rispetto alla baseline PaLI3-5B. Quando le motivazioni vengono ulteriormente raffinate con un semplice prompt di programma-di-pensiero chen2023program, il nostro modello supera i recentemente introdotti Gemini Ultra e GPT-4V.
English
Vision-language models (VLMs) are achieving increasingly strong performance
on multimodal tasks. However, reasoning capabilities remain limited
particularly for smaller VLMs, while those of large-language models (LLMs) have
seen numerous improvements. We propose a technique to transfer capabilities
from LLMs to VLMs. On the recently introduced ChartQA, our method obtains
state-of-the-art performance when applied on the PaLI3-5B VLM by
chen2023pali3, while also enabling much better performance on PlotQA
and FigureQA.
We first improve the chart representation by continuing the pre-training
stage using an improved version of the chart-to-table translation task by
liu2023deplot. We then propose constructing a 20x larger dataset than
the original training set. To improve general reasoning capabilities and
improve numerical operations, we synthesize reasoning traces using the table
representation of charts. Lastly, our model is fine-tuned using the multitask
loss introduced by hsieh2023distilling.
Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B
without using an upstream OCR system, while keeping inference time constant
compared to the PaLI3-5B baseline. When rationales are further refined with a
simple program-of-thought prompt chen2023program, our model outperforms
the recently introduced Gemini Ultra and GPT-4V.