Raisonnement basé sur des graphiques : Transfert des capacités des LLM vers les VLMs
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
March 19, 2024
Auteurs: Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma
cs.AI
Résumé
Les modèles vision-langage (VLMs) atteignent des performances de plus en plus solides sur les tâches multimodales. Cependant, leurs capacités de raisonnement restent limitées, en particulier pour les VLMs de plus petite taille, alors que celles des grands modèles de langage (LLMs) ont connu de nombreuses améliorations. Nous proposons une technique pour transférer les capacités des LLMs vers les VLMs. Sur la tâche récemment introduite ChartQA, notre méthode obtient des performances de pointe lorsqu'elle est appliquée au VLM PaLI3-5B de chen2023pali3, tout en permettant également de bien meilleures performances sur PlotQA et FigureQA.
Nous améliorons d'abord la représentation des graphiques en poursuivant l'étape de pré-entraînement en utilisant une version améliorée de la tâche de traduction graphique-vers-tableau de liu2023deplot. Nous proposons ensuite de construire un jeu de données 20 fois plus grand que l'ensemble d'entraînement original. Pour améliorer les capacités de raisonnement général et les opérations numériques, nous synthétisons des traces de raisonnement en utilisant la représentation tabulaire des graphiques. Enfin, notre modèle est affiné en utilisant la fonction de perte multitâche introduite par hsieh2023distilling.
Notre variante ChartPaLI-5B surpasse même des modèles 10 fois plus grands comme PaLIX-55B sans utiliser un système OCR en amont, tout en maintenant un temps d'inférence constant par rapport à la référence PaLI3-5B. Lorsque les justifications sont encore affinées avec une simple incitation de type "programme de pensée" (chen2023program), notre modèle surpasse les récents Gemini Ultra et GPT-4V.
English
Vision-language models (VLMs) are achieving increasingly strong performance
on multimodal tasks. However, reasoning capabilities remain limited
particularly for smaller VLMs, while those of large-language models (LLMs) have
seen numerous improvements. We propose a technique to transfer capabilities
from LLMs to VLMs. On the recently introduced ChartQA, our method obtains
state-of-the-art performance when applied on the PaLI3-5B VLM by
chen2023pali3, while also enabling much better performance on PlotQA
and FigureQA.
We first improve the chart representation by continuing the pre-training
stage using an improved version of the chart-to-table translation task by
liu2023deplot. We then propose constructing a 20x larger dataset than
the original training set. To improve general reasoning capabilities and
improve numerical operations, we synthesize reasoning traces using the table
representation of charts. Lastly, our model is fine-tuned using the multitask
loss introduced by hsieh2023distilling.
Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B
without using an upstream OCR system, while keeping inference time constant
compared to the PaLI3-5B baseline. When rationales are further refined with a
simple program-of-thought prompt chen2023program, our model outperforms
the recently introduced Gemini Ultra and GPT-4V.Summary
AI-Generated Summary