Diagrammbasiertes Argumentieren: Übertragung von Fähigkeiten von LLMs auf VLMs
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
March 19, 2024
Autoren: Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma
cs.AI
Zusammenfassung
Vision-Sprach-Modelle (VLMs) erzielen zunehmend starke Leistungen bei multimodalen Aufgaben. Die Fähigkeiten zur Argumentation bleiben jedoch insbesondere bei kleineren VLMs begrenzt, während diejenigen großer Sprachmodelle (LLMs) zahlreiche Verbesserungen erfahren haben. Wir schlagen eine Technik vor, um Fähigkeiten von LLMs auf VLMs zu übertragen. Bei dem kürzlich eingeführten ChartQA erzielt unsere Methode Spitzenleistungen, wenn sie auf das PaLI3-5B VLM von chen2023pali3 angewendet wird, und ermöglicht auch eine wesentlich bessere Leistung bei PlotQA und FigureQA.
Wir verbessern zunächst die Diagrammdarstellung, indem wir die Vortrainingsphase fortsetzen und eine verbesserte Version der Diagramm-zu-Tabellen-Übersetzungsaufgabe von liu2023deplot verwenden. Anschließend schlagen wir vor, einen 20-mal größeren Datensatz als den ursprünglichen Trainingsdatensatz zu erstellen. Um die allgemeinen Argumentationsfähigkeiten zu verbessern und numerische Operationen zu optimieren, synthetisieren wir Argumentationsspuren unter Verwendung der Tabellendarstellung von Diagrammen. Schließlich wird unser Modell mithilfe des Multitask-Verlusts, der von hsieh2023distilling eingeführt wurde, feinabgestimmt.
Unsere Variante ChartPaLI-5B übertrifft sogar 10-mal größere Modelle wie PaLIX-55B, ohne ein vorgelagertes OCR-System zu verwenden, und hält die Inferenzzeit im Vergleich zum PaLI3-5B-Benchmark konstant. Wenn die Begründungen weiter mit einem einfachen Denkprogramm-Prompt von chen2023program verfeinert werden, übertrifft unser Modell die kürzlich eingeführten Gemini Ultra und GPT-4V.
English
Vision-language models (VLMs) are achieving increasingly strong performance
on multimodal tasks. However, reasoning capabilities remain limited
particularly for smaller VLMs, while those of large-language models (LLMs) have
seen numerous improvements. We propose a technique to transfer capabilities
from LLMs to VLMs. On the recently introduced ChartQA, our method obtains
state-of-the-art performance when applied on the PaLI3-5B VLM by
chen2023pali3, while also enabling much better performance on PlotQA
and FigureQA.
We first improve the chart representation by continuing the pre-training
stage using an improved version of the chart-to-table translation task by
liu2023deplot. We then propose constructing a 20x larger dataset than
the original training set. To improve general reasoning capabilities and
improve numerical operations, we synthesize reasoning traces using the table
representation of charts. Lastly, our model is fine-tuned using the multitask
loss introduced by hsieh2023distilling.
Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B
without using an upstream OCR system, while keeping inference time constant
compared to the PaLI3-5B baseline. When rationales are further refined with a
simple program-of-thought prompt chen2023program, our model outperforms
the recently introduced Gemini Ultra and GPT-4V.Summary
AI-Generated Summary