Видение и Понимание: Связь Зрения с Химическим Знанием через ChemVLMSeeing and Understanding: Bridging Vision with Chemical Knowledge Via
ChemVLM
В данном техническом отчете мы предлагаем ChemVLM - первую открытую мультимодальную крупную языковую модель, посвященную области химии, разработанную для решения несовместимости между пониманием химических изображений и текстовым анализом. Основываясь на архитектуре VIT-MLP-LLM, мы используем ChemLLM-20B в качестве основной крупной модели, наделяя нашу модель надежными возможностями в понимании и использовании химических текстовых знаний. Кроме того, мы применяем InternVIT-6B в качестве мощного кодировщика изображений. Мы подготовили высококачественные данные из области химии, включая молекулы, формулы реакций и данные химических экзаменов, и скомпилировали их в двуязычный мультимодальный набор данных для вопросов и ответов. Мы тестируем производительность нашей модели на нескольких открытых бенчмарках и трех пользовательских наборах оценки. Экспериментальные результаты показывают, что наша модель достигает отличной производительности, обеспечивая передовые результаты в пяти из шести задач. Нашу модель можно найти по адресу https://huggingface.co/AI4Chem/ChemVLM-26B.