ChatPaper.aiChatPaper

Ver e Entender: Unindo Visão com Conhecimento Químico por Meio do ChemVLM

Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM

August 14, 2024
Autores: Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI

Resumo

Neste relatório técnico, propomos o ChemVLM, o primeiro modelo de linguagem grande multimodal de código aberto dedicado aos campos da química, projetado para lidar com a incompatibilidade entre a compreensão de imagens químicas e a análise de texto. Construído com base na arquitetura VIT-MLP-LLM, aproveitamos o ChemLLM-20B como modelo grande fundamental, dotando nosso modelo com capacidades robustas na compreensão e utilização do conhecimento de texto químico. Além disso, empregamos o InternVIT-6B como um codificador de imagem poderoso. Curamos dados de alta qualidade do domínio químico, incluindo moléculas, fórmulas de reações e dados de exames de química, e compilamos esses em um conjunto de dados bilíngue multimodal de perguntas e respostas. Testamos o desempenho de nosso modelo em vários benchmarks de código aberto e três conjuntos de avaliação personalizados. Os resultados experimentais demonstram que nosso modelo alcança um excelente desempenho, garantindo resultados de ponta em cinco das seis tarefas envolvidas. Nosso modelo pode ser encontrado em https://huggingface.co/AI4Chem/ChemVLM-26B.
English
In this technical report, we propose ChemVLM, the first open-source multimodal large language model dedicated to the fields of chemistry, designed to address the incompatibility between chemical image understanding and text analysis. Built upon the VIT-MLP-LLM architecture, we leverage ChemLLM-20B as the foundational large model, endowing our model with robust capabilities in understanding and utilizing chemical text knowledge. Additionally, we employ InternVIT-6B as a powerful image encoder. We have curated high-quality data from the chemical domain, including molecules, reaction formulas, and chemistry examination data, and compiled these into a bilingual multimodal question-answering dataset. We test the performance of our model on multiple open-source benchmarks and three custom evaluation sets. Experimental results demonstrate that our model achieves excellent performance, securing state-of-the-art results in five out of six involved tasks. Our model can be found at https://huggingface.co/AI4Chem/ChemVLM-26B.

Summary

AI-Generated Summary

PDF224November 28, 2024