Viendo y comprendiendo: conectando la visión con el conocimiento químico a través de ChemVLM.Seeing and Understanding: Bridging Vision with Chemical Knowledge Via
ChemVLM
En este informe técnico, proponemos ChemVLM, el primer modelo de lenguaje grande multimodal de código abierto dedicado a los campos de la química, diseñado para abordar la incompatibilidad entre la comprensión de imágenes químicas y el análisis de texto. Construido sobre la arquitectura VIT-MLP-LLM, aprovechamos ChemLLM-20B como el modelo grande fundamental, dotando a nuestro modelo con capacidades robustas en la comprensión y utilización del conocimiento de texto químico. Además, empleamos InternVIT-6B como un potente codificador de imágenes. Hemos recopilado datos de alta calidad del dominio químico, incluyendo moléculas, fórmulas de reacciones y datos de exámenes de química, y los hemos compilado en un conjunto de datos bilingüe multimodal de preguntas y respuestas. Probamos el rendimiento de nuestro modelo en múltiples bancos de pruebas de código abierto y tres conjuntos de evaluación personalizados. Los resultados experimentales demuestran que nuestro modelo logra un excelente rendimiento, asegurando resultados de vanguardia en cinco de las seis tareas involucradas. Nuestro modelo se puede encontrar en https://huggingface.co/AI4Chem/ChemVLM-26B.