차트 기반 추론: 대형 언어 모델(LLM)의 능력을 시각 언어 모델(VLM)로 전이하기
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
March 19, 2024
저자: Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma
cs.AI
초록
비전-언어 모델(VLMs)은 멀티모달 작업에서 점점 더 강력한 성능을 달성하고 있습니다. 그러나 특히 소규모 VLMs의 경우 추론 능력은 여전히 제한적인 반면, 대규모 언어 모델(LLMs)의 추론 능력은 수많은 개선이 이루어졌습니다. 우리는 LLMs의 능력을 VLMs로 전이하는 기술을 제안합니다. 최근 소개된 ChartQA에서, 우리의 방법은 chen2023pali3의 PaLI3-5B VLM에 적용되었을 때 최첨단 성능을 달성했으며, PlotQA와 FigureQA에서도 훨씬 더 나은 성능을 보였습니다.
우리는 먼저 liu2023deplot의 개선된 차트-테이블 변환 작업을 사용하여 사전 학습 단계를 계속함으로써 차트 표현을 개선했습니다. 그런 다음 원래 학습 데이터셋보다 20배 더 큰 데이터셋을 구축할 것을 제안합니다. 일반적인 추론 능력을 향상시키고 수치 연산을 개선하기 위해, 차트의 테이블 표현을 사용하여 추론 흔적을 합성합니다. 마지막으로, hsieh2023distilling에서 소개된 멀티태스크 손실을 사용하여 모델을 미세 조정합니다.
우리의 변형인 ChartPaLI-5B는 상위 OCR 시스템을 사용하지 않으면서도 PaLIX-55B와 같은 10배 더 큰 모델을 능가하며, PaLI3-5B 기준선과 비교하여 추론 시간을 일정하게 유지합니다. 간단한 프로그램-생각 프롬프트(chen2023program)로 근거를 더욱 정제할 때, 우리의 모델은 최근 소개된 Gemini Ultra와 GPT-4V를 능가합니다.
English
Vision-language models (VLMs) are achieving increasingly strong performance
on multimodal tasks. However, reasoning capabilities remain limited
particularly for smaller VLMs, while those of large-language models (LLMs) have
seen numerous improvements. We propose a technique to transfer capabilities
from LLMs to VLMs. On the recently introduced ChartQA, our method obtains
state-of-the-art performance when applied on the PaLI3-5B VLM by
chen2023pali3, while also enabling much better performance on PlotQA
and FigureQA.
We first improve the chart representation by continuing the pre-training
stage using an improved version of the chart-to-table translation task by
liu2023deplot. We then propose constructing a 20x larger dataset than
the original training set. To improve general reasoning capabilities and
improve numerical operations, we synthesize reasoning traces using the table
representation of charts. Lastly, our model is fine-tuned using the multitask
loss introduced by hsieh2023distilling.
Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B
without using an upstream OCR system, while keeping inference time constant
compared to the PaLI3-5B baseline. When rationales are further refined with a
simple program-of-thought prompt chen2023program, our model outperforms
the recently introduced Gemini Ultra and GPT-4V.Summary
AI-Generated Summary