Vedere e Comprendere: Colmare il Divario tra Visione e Conoscenza Chimica con ChemVLM
Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM
August 14, 2024
Autori: Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI
Abstract
In questo rapporto tecnico, presentiamo ChemVLM, il primo modello linguistico multimodale open-source dedicato al campo della chimica, progettato per affrontare l'incompatibilità tra la comprensione delle immagini chimiche e l'analisi del testo. Basato sull'architettura VIT-MLP-LLM, utilizziamo ChemLLM-20B come modello di base, dotando il nostro modello di solide capacità nella comprensione e nell'utilizzo delle conoscenze testuali chimiche. Inoltre, impieghiamo InternVIT-6B come potente codificatore di immagini. Abbiamo selezionato dati di alta qualità dal dominio chimico, inclusi molecole, formule di reazione e dati di esami di chimica, e li abbiamo organizzati in un dataset bilingue multimodale di domande e risposte. Testiamo le prestazioni del nostro modello su più benchmark open-source e tre set di valutazione personalizzati. I risultati sperimentali dimostrano che il nostro modello raggiunge prestazioni eccellenti, ottenendo risultati all'avanguardia in cinque su sei dei compiti coinvolti. Il nostro modello è disponibile all'indirizzo https://huggingface.co/AI4Chem/ChemVLM-26B.
English
In this technical report, we propose ChemVLM, the first open-source
multimodal large language model dedicated to the fields of chemistry, designed
to address the incompatibility between chemical image understanding and text
analysis. Built upon the VIT-MLP-LLM architecture, we leverage ChemLLM-20B as
the foundational large model, endowing our model with robust capabilities in
understanding and utilizing chemical text knowledge. Additionally, we employ
InternVIT-6B as a powerful image encoder. We have curated high-quality data
from the chemical domain, including molecules, reaction formulas, and chemistry
examination data, and compiled these into a bilingual multimodal
question-answering dataset. We test the performance of our model on multiple
open-source benchmarks and three custom evaluation sets. Experimental results
demonstrate that our model achieves excellent performance, securing
state-of-the-art results in five out of six involved tasks. Our model can be
found at https://huggingface.co/AI4Chem/ChemVLM-26B.