Viendo y comprendiendo: conectando la visión con el conocimiento químico a través de ChemVLM.
Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM
August 14, 2024
Autores: Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI
Resumen
En este informe técnico, proponemos ChemVLM, el primer modelo de lenguaje grande multimodal de código abierto dedicado a los campos de la química, diseñado para abordar la incompatibilidad entre la comprensión de imágenes químicas y el análisis de texto. Construido sobre la arquitectura VIT-MLP-LLM, aprovechamos ChemLLM-20B como el modelo grande fundamental, dotando a nuestro modelo con capacidades robustas en la comprensión y utilización del conocimiento de texto químico. Además, empleamos InternVIT-6B como un potente codificador de imágenes. Hemos recopilado datos de alta calidad del dominio químico, incluyendo moléculas, fórmulas de reacciones y datos de exámenes de química, y los hemos compilado en un conjunto de datos bilingüe multimodal de preguntas y respuestas. Probamos el rendimiento de nuestro modelo en múltiples bancos de pruebas de código abierto y tres conjuntos de evaluación personalizados. Los resultados experimentales demuestran que nuestro modelo logra un excelente rendimiento, asegurando resultados de vanguardia en cinco de las seis tareas involucradas. Nuestro modelo se puede encontrar en https://huggingface.co/AI4Chem/ChemVLM-26B.
English
In this technical report, we propose ChemVLM, the first open-source
multimodal large language model dedicated to the fields of chemistry, designed
to address the incompatibility between chemical image understanding and text
analysis. Built upon the VIT-MLP-LLM architecture, we leverage ChemLLM-20B as
the foundational large model, endowing our model with robust capabilities in
understanding and utilizing chemical text knowledge. Additionally, we employ
InternVIT-6B as a powerful image encoder. We have curated high-quality data
from the chemical domain, including molecules, reaction formulas, and chemistry
examination data, and compiled these into a bilingual multimodal
question-answering dataset. We test the performance of our model on multiple
open-source benchmarks and three custom evaluation sets. Experimental results
demonstrate that our model achieves excellent performance, securing
state-of-the-art results in five out of six involved tasks. Our model can be
found at https://huggingface.co/AI4Chem/ChemVLM-26B.Summary
AI-Generated Summary