보고 이해하기: ChemVLM을 통해 시각과 화학 지식을 연결하기
Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM
August 14, 2024
저자: Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI
초록
본 기술 보고서에서는 화학 분야에 특화된 최초의 오픈 소스 다중 모달 대형 언어 모델인 ChemVLM을 제안합니다. 이 모델은 화학 이미지 이해와 텍스트 분석 간의 호환성 문제를 해결하기 위해 설계되었습니다. VIT-MLP-LLM 아키텍처를 기반으로 구축되었으며, ChemLLM-20B를 기초 대형 모델로 활용하여 화학 텍스트 지식을 이해하고 활용하는 강력한 능력을 부여했습니다. 또한 강력한 이미지 인코더로 InternVIT-6B를 활용했습니다. 화학 영역에서 분자, 반응 공식, 화학 시험 데이터 등의 고품질 데이터를 선별하고, 이를 이중 언어 다중 모달 질의응답 데이터셋으로 편집했습니다. 우리 모델의 성능을 여러 오픈 소스 벤치마크 및 세 개의 사용자 정의 평가 세트에서 테스트했습니다. 실험 결과는 우리 모델이 6가지 작업 중 5가지에서 최첨단 결과를 달성하며 우수한 성능을 보여준다는 것을 입증했습니다. 저희 모델은 https://huggingface.co/AI4Chem/ChemVLM-26B에서 찾아볼 수 있습니다.
English
In this technical report, we propose ChemVLM, the first open-source
multimodal large language model dedicated to the fields of chemistry, designed
to address the incompatibility between chemical image understanding and text
analysis. Built upon the VIT-MLP-LLM architecture, we leverage ChemLLM-20B as
the foundational large model, endowing our model with robust capabilities in
understanding and utilizing chemical text knowledge. Additionally, we employ
InternVIT-6B as a powerful image encoder. We have curated high-quality data
from the chemical domain, including molecules, reaction formulas, and chemistry
examination data, and compiled these into a bilingual multimodal
question-answering dataset. We test the performance of our model on multiple
open-source benchmarks and three custom evaluation sets. Experimental results
demonstrate that our model achieves excellent performance, securing
state-of-the-art results in five out of six involved tasks. Our model can be
found at https://huggingface.co/AI4Chem/ChemVLM-26B.Summary
AI-Generated Summary