Raciocínio Baseado em Gráficos: Transferindo Capacidades de LLMs para VLMs

Resumo

Modelos de visão e linguagem (VLMs) estão alcançando desempenhos cada vez mais fortes em tarefas multimodais. No entanto, as capacidades de raciocínio permanecem limitadas, especialmente para VLMs menores, enquanto as dos modelos de linguagem de grande escala (LLMs) têm visto inúmeras melhorias. Propomos uma técnica para transferir capacidades de LLMs para VLMs. No recentemente introduzido ChartQA, nosso método obtém desempenho de ponta quando aplicado ao VLM PaLI3-5B por chen2023pali3, ao mesmo tempo em que permite um desempenho muito melhor em PlotQA e FigureQA. Primeiro, melhoramos a representação de gráficos continuando o estágio de pré-treinamento usando uma versão aprimorada da tarefa de tradução de gráfico para tabela por liu2023deplot. Em seguida, propomos a construção de um conjunto de dados 20 vezes maior que o conjunto de treinamento original. Para melhorar as capacidades gerais de raciocínio e operações numéricas, sintetizamos traços de raciocínio usando a representação tabular de gráficos. Por fim, nosso modelo é ajustado usando a função de perda multitarefa introduzida por hsieh2023distilling. Nossa variante ChartPaLI-5B supera até mesmo modelos 10 vezes maiores, como o PaLIX-55B, sem usar um sistema OCR upstream, mantendo o tempo de inferência constante em comparação com a linha de base PaLI3-5B. Quando as racionalizações são ainda mais refinadas com um prompt simples de programa-de-pensamento chen2023program, nosso modelo supera o recentemente introduzido Gemini Ultra e GPT-4V.

English

Vision-language models (VLMs) are achieving increasingly strong performance on multimodal tasks. However, reasoning capabilities remain limited particularly for smaller VLMs, while those of large-language models (LLMs) have seen numerous improvements. We propose a technique to transfer capabilities from LLMs to VLMs. On the recently introduced ChartQA, our method obtains state-of-the-art performance when applied on the PaLI3-5B VLM by chen2023pali3, while also enabling much better performance on PlotQA and FigureQA. We first improve the chart representation by continuing the pre-training stage using an improved version of the chart-to-table translation task by liu2023deplot. We then propose constructing a 20x larger dataset than the original training set. To improve general reasoning capabilities and improve numerical operations, we synthesize reasoning traces using the table representation of charts. Lastly, our model is fine-tuned using the multitask loss introduced by hsieh2023distilling. Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B without using an upstream OCR system, while keeping inference time constant compared to the PaLI3-5B baseline. When rationales are further refined with a simple program-of-thought prompt chen2023program, our model outperforms the recently introduced Gemini Ultra and GPT-4V.

Raciocínio Baseado em Gráficos: Transferindo Capacidades de LLMs para VLMs

Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

Resumo

Support