ChatPaper.aiChatPaper

Voir et Comprendre : Relier la Vision aux Connaissances Chimiques via ChemVLM

Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM

August 14, 2024
Auteurs: Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI

Résumé

Dans ce rapport technique, nous présentons ChemVLM, le premier modèle de langage multimodal open-source dédié aux domaines de la chimie, conçu pour résoudre l'incompatibilité entre la compréhension des images chimiques et l'analyse textuelle. Basé sur l'architecture VIT-MLP-LLM, nous exploitons ChemLLM-20B comme modèle de base, dotant ainsi notre modèle de solides capacités pour comprendre et utiliser les connaissances textuelles en chimie. De plus, nous utilisons InternVIT-6B comme encodeur d'images puissant. Nous avons rassemblé des données de haute qualité provenant du domaine chimique, incluant des molécules, des formules de réaction et des données d'examens en chimie, et les avons compilées dans un ensemble de données bilingues multimodales de questions-réponses. Nous testons les performances de notre modèle sur plusieurs benchmarks open-source et trois ensembles d'évaluation personnalisés. Les résultats expérimentaux montrent que notre modèle obtient d'excellentes performances, atteignant des résultats de pointe dans cinq des six tâches concernées. Notre modèle est disponible à l'adresse suivante : https://huggingface.co/AI4Chem/ChemVLM-26B.
English
In this technical report, we propose ChemVLM, the first open-source multimodal large language model dedicated to the fields of chemistry, designed to address the incompatibility between chemical image understanding and text analysis. Built upon the VIT-MLP-LLM architecture, we leverage ChemLLM-20B as the foundational large model, endowing our model with robust capabilities in understanding and utilizing chemical text knowledge. Additionally, we employ InternVIT-6B as a powerful image encoder. We have curated high-quality data from the chemical domain, including molecules, reaction formulas, and chemistry examination data, and compiled these into a bilingual multimodal question-answering dataset. We test the performance of our model on multiple open-source benchmarks and three custom evaluation sets. Experimental results demonstrate that our model achieves excellent performance, securing state-of-the-art results in five out of six involved tasks. Our model can be found at https://huggingface.co/AI4Chem/ChemVLM-26B.

Summary

AI-Generated Summary

PDF224November 28, 2024