Raciocínio Baseado em Gráficos: Transferindo Capacidades de LLMs para VLMs
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
March 19, 2024
Autores: Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma
cs.AI
Resumo
Modelos de visão e linguagem (VLMs) estão alcançando desempenhos cada vez mais fortes em tarefas multimodais. No entanto, as capacidades de raciocínio permanecem limitadas, especialmente para VLMs menores, enquanto as dos modelos de linguagem de grande escala (LLMs) têm visto inúmeras melhorias. Propomos uma técnica para transferir capacidades de LLMs para VLMs. No recentemente introduzido ChartQA, nosso método obtém desempenho de ponta quando aplicado ao VLM PaLI3-5B por chen2023pali3, ao mesmo tempo em que permite um desempenho muito melhor em PlotQA e FigureQA.
Primeiro, melhoramos a representação de gráficos continuando o estágio de pré-treinamento usando uma versão aprimorada da tarefa de tradução de gráfico para tabela por liu2023deplot. Em seguida, propomos a construção de um conjunto de dados 20 vezes maior que o conjunto de treinamento original. Para melhorar as capacidades gerais de raciocínio e operações numéricas, sintetizamos traços de raciocínio usando a representação tabular de gráficos. Por fim, nosso modelo é ajustado usando a função de perda multitarefa introduzida por hsieh2023distilling.
Nossa variante ChartPaLI-5B supera até mesmo modelos 10 vezes maiores, como o PaLIX-55B, sem usar um sistema OCR upstream, mantendo o tempo de inferência constante em comparação com a linha de base PaLI3-5B. Quando as racionalizações são ainda mais refinadas com um prompt simples de programa-de-pensamento chen2023program, nosso modelo supera o recentemente introduzido Gemini Ultra e GPT-4V.
English
Vision-language models (VLMs) are achieving increasingly strong performance
on multimodal tasks. However, reasoning capabilities remain limited
particularly for smaller VLMs, while those of large-language models (LLMs) have
seen numerous improvements. We propose a technique to transfer capabilities
from LLMs to VLMs. On the recently introduced ChartQA, our method obtains
state-of-the-art performance when applied on the PaLI3-5B VLM by
chen2023pali3, while also enabling much better performance on PlotQA
and FigureQA.
We first improve the chart representation by continuing the pre-training
stage using an improved version of the chart-to-table translation task by
liu2023deplot. We then propose constructing a 20x larger dataset than
the original training set. To improve general reasoning capabilities and
improve numerical operations, we synthesize reasoning traces using the table
representation of charts. Lastly, our model is fine-tuned using the multitask
loss introduced by hsieh2023distilling.
Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B
without using an upstream OCR system, while keeping inference time constant
compared to the PaLI3-5B baseline. When rationales are further refined with a
simple program-of-thought prompt chen2023program, our model outperforms
the recently introduced Gemini Ultra and GPT-4V.