LLMからMLLMへのビジュアルチャート推論能力の抽出
Distill Visual Chart Reasoning Ability from LLMs to MLLMs
October 24, 2024
著者: Wei He, Zhiheng Xi, Wanxu Zhao, Xiaoran Fan, Yiwen Ding, Zifei Shan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
要旨
複雑なチャートのQ&Aタスクを解決するには、マルチモーダル大規模言語モデル(MLLMs)における高度な視覚推論能力が必要です。最近の研究では、これらの能力が主に2つの部分で構成されていることが強調されています:視覚的入力から主要情報を認識し、それに対して推論を行うことです。したがって、MLLMsを強化する有望なアプローチは、これら2つの側面に焦点を当てた関連するトレーニングデータを構築することです。ただし、複雑なチャートや質問を収集および注釈付けすることは費用と時間がかかり、注釈付き回答の品質を確保することは依然として課題です。本論文では、Code-as-Intermediary Translation(CIT)という、視覚推論能力をLLMsからMLLMsに蒸留するための費用対効果の高い、効率的で容易にスケーラブルなデータ合成方法を提案します。コードは、視覚的なチャート表現をテキスト表現に変換する中間体として機能し、LLMsがクロスモーダル情報を理解するのを可能にします。具体的には、テキストベースの合成技術を用いてチャートプロットのコードを構築し、認識と推論能力の両方を向上させるために、3,000の推論集中型チャートと20,000のQ&Aペアを含むReachQAというデータセットを生成します。実験の結果、当該データでファインチューニングされたモデルは、チャート関連のベンチマークで優れたパフォーマンスを示すだけでなく、MathVistaのような一般的な数学的ベンチマークで改善されたマルチモーダル推論能力を示すことが示されました。コードとデータセットは、https://github.com/hewei2001/ReachQA で公開されています。
English
Solving complex chart Q&A tasks requires advanced visual reasoning abilities
in multimodal large language models (MLLMs). Recent studies highlight that
these abilities consist of two main parts: recognizing key information from
visual inputs and conducting reasoning over it. Thus, a promising approach to
enhance MLLMs is to construct relevant training data focusing on the two
aspects. However, collecting and annotating complex charts and questions is
costly and time-consuming, and ensuring the quality of annotated answers
remains a challenge. In this paper, we propose Code-as-Intermediary Translation
(CIT), a cost-effective, efficient and easily scalable data synthesis method
for distilling visual reasoning abilities from LLMs to MLLMs. The code serves
as an intermediary that translates visual chart representations into textual
representations, enabling LLMs to understand cross-modal information.
Specifically, we employ text-based synthesizing techniques to construct
chart-plotting code and produce ReachQA, a dataset containing 3k
reasoning-intensive charts and 20k Q&A pairs to enhance both recognition and
reasoning abilities. Experiments show that when fine-tuned with our data,
models not only perform well on chart-related benchmarks, but also demonstrate
improved multimodal reasoning abilities on general mathematical benchmarks like
MathVista. The code and dataset are publicly available at
https://github.com/hewei2001/ReachQA.Summary
AI-Generated Summary