視覚と理解:ChemVLMによる化学知識と視覚の統合
Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM
August 14, 2024
著者: Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI
要旨
本技術レポートでは、化学分野に特化した初のオープンソースマルチモーダル大規模言語モデル「ChemVLM」を提案します。このモデルは、化学画像理解とテキスト分析の間の非互換性に対処するために設計されています。VIT-MLP-LLMアーキテクチャを基盤として、ChemLLM-20Bを基盤モデルとして活用し、化学テキスト知識の理解と利用において強力な能力を備えています。さらに、InternVIT-6Bを強力な画像エンコーダとして採用しています。化学領域から高品質なデータ(分子、反応式、化学試験データなど)を収集し、これらをバイリンガルマルチモーダル質問応答データセットにまとめました。複数のオープンソースベンチマークと3つのカスタム評価セットを用いてモデルの性能をテストしました。実験結果は、本モデルが優れた性能を発揮し、6つのタスクのうち5つで最先端の結果を達成したことを示しています。本モデルはhttps://huggingface.co/AI4Chem/ChemVLM-26Bで公開されています。
English
In this technical report, we propose ChemVLM, the first open-source
multimodal large language model dedicated to the fields of chemistry, designed
to address the incompatibility between chemical image understanding and text
analysis. Built upon the VIT-MLP-LLM architecture, we leverage ChemLLM-20B as
the foundational large model, endowing our model with robust capabilities in
understanding and utilizing chemical text knowledge. Additionally, we employ
InternVIT-6B as a powerful image encoder. We have curated high-quality data
from the chemical domain, including molecules, reaction formulas, and chemistry
examination data, and compiled these into a bilingual multimodal
question-answering dataset. We test the performance of our model on multiple
open-source benchmarks and three custom evaluation sets. Experimental results
demonstrate that our model achieves excellent performance, securing
state-of-the-art results in five out of six involved tasks. Our model can be
found at https://huggingface.co/AI4Chem/ChemVLM-26B.Summary
AI-Generated Summary