視覚と理解:ChemVLMによる化学知識と視覚の統合Seeing and Understanding: Bridging Vision with Chemical Knowledge Via
ChemVLM
本技術レポートでは、化学分野に特化した初のオープンソースマルチモーダル大規模言語モデル「ChemVLM」を提案します。このモデルは、化学画像理解とテキスト分析の間の非互換性に対処するために設計されています。VIT-MLP-LLMアーキテクチャを基盤として、ChemLLM-20Bを基盤モデルとして活用し、化学テキスト知識の理解と利用において強力な能力を備えています。さらに、InternVIT-6Bを強力な画像エンコーダとして採用しています。化学領域から高品質なデータ(分子、反応式、化学試験データなど)を収集し、これらをバイリンガルマルチモーダル質問応答データセットにまとめました。複数のオープンソースベンチマークと3つのカスタム評価セットを用いてモデルの性能をテストしました。実験結果は、本モデルが優れた性能を発揮し、6つのタスクのうち5つで最先端の結果を達成したことを示しています。本モデルはhttps://huggingface.co/AI4Chem/ChemVLM-26Bで公開されています。