ChatPaper.aiChatPaper

Grafiekgebaseerd redeneren: Het overdragen van capaciteiten van LLM's naar VLM's

Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

March 19, 2024
Auteurs: Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma
cs.AI

Samenvatting

Vision-language models (VLMs) behalen steeds betere prestaties op multimodale taken. Echter, de redeneervaardigheden blijven beperkt, vooral bij kleinere VLMs, terwijl die van large-language models (LLMs) talrijke verbeteringen hebben gezien. Wij stellen een techniek voor om vaardigheden van LLMs over te dragen naar VLMs. Op de recent geïntroduceerde ChartQA behaalt onze methode state-of-the-art prestaties wanneer toegepast op de PaLI3-5B VLM van chen2023pali3, terwijl ook veel betere prestaties worden gerealiseerd op PlotQA en FigureQA. We verbeteren eerst de grafiekrepresentatie door de pre-trainingsfase voort te zetten met een verbeterde versie van de grafiek-naar-tabel vertaaltaak van liu2023deplot. Vervolgens stellen we voor om een dataset te construeren die 20x groter is dan de originele trainingsset. Om de algemene redeneervaardigheden te verbeteren en numerieke operaties te versterken, synthetiseren we redeneersporen met behulp van de tabelrepresentatie van grafieken. Ten slotte wordt ons model afgestemd met behulp van de multitask loss geïntroduceerd door hsieh2023distilling. Onze variant ChartPaLI-5B presteert beter dan zelfs 10x grotere modellen zoals PaLIX-55B zonder gebruik te maken van een upstream OCR-systeem, terwijl de inferentietijd constant blijft in vergelijking met de PaLI3-5B baseline. Wanneer redeneringen verder worden verfijnd met een eenvoudige program-of-thought prompt van chen2023program, presteert ons model beter dan de recent geïntroduceerde Gemini Ultra en GPT-4V.
English
Vision-language models (VLMs) are achieving increasingly strong performance on multimodal tasks. However, reasoning capabilities remain limited particularly for smaller VLMs, while those of large-language models (LLMs) have seen numerous improvements. We propose a technique to transfer capabilities from LLMs to VLMs. On the recently introduced ChartQA, our method obtains state-of-the-art performance when applied on the PaLI3-5B VLM by chen2023pali3, while also enabling much better performance on PlotQA and FigureQA. We first improve the chart representation by continuing the pre-training stage using an improved version of the chart-to-table translation task by liu2023deplot. We then propose constructing a 20x larger dataset than the original training set. To improve general reasoning capabilities and improve numerical operations, we synthesize reasoning traces using the table representation of charts. Lastly, our model is fine-tuned using the multitask loss introduced by hsieh2023distilling. Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B without using an upstream OCR system, while keeping inference time constant compared to the PaLI3-5B baseline. When rationales are further refined with a simple program-of-thought prompt chen2023program, our model outperforms the recently introduced Gemini Ultra and GPT-4V.
PDF111February 9, 2026