Ver e Entender: Unindo Visão com Conhecimento Químico por Meio do
ChemVLMSeeing and Understanding: Bridging Vision with Chemical Knowledge Via
ChemVLM
Neste relatório técnico, propomos o ChemVLM, o primeiro modelo de linguagem grande multimodal de código aberto dedicado aos campos da química, projetado para lidar com a incompatibilidade entre a compreensão de imagens químicas e a análise de texto. Construído com base na arquitetura VIT-MLP-LLM, aproveitamos o ChemLLM-20B como modelo grande fundamental, dotando nosso modelo com capacidades robustas na compreensão e utilização do conhecimento de texto químico. Além disso, empregamos o InternVIT-6B como um codificador de imagem poderoso. Curamos dados de alta qualidade do domínio químico, incluindo moléculas, fórmulas de reações e dados de exames de química, e compilamos esses em um conjunto de dados bilíngue multimodal de perguntas e respostas. Testamos o desempenho de nosso modelo em vários benchmarks de código aberto e três conjuntos de avaliação personalizados. Os resultados experimentais demonstram que nosso modelo alcança um excelente desempenho, garantindo resultados de ponta em cinco das seis tarefas envolvidas. Nosso modelo pode ser encontrado em https://huggingface.co/AI4Chem/ChemVLM-26B.