보고 이해하기: ChemVLM을 통해 시각과 화학 지식을 연결하기Seeing and Understanding: Bridging Vision with Chemical Knowledge Via
ChemVLM
본 기술 보고서에서는 화학 분야에 특화된 최초의 오픈 소스 다중 모달 대형 언어 모델인 ChemVLM을 제안합니다. 이 모델은 화학 이미지 이해와 텍스트 분석 간의 호환성 문제를 해결하기 위해 설계되었습니다. VIT-MLP-LLM 아키텍처를 기반으로 구축되었으며, ChemLLM-20B를 기초 대형 모델로 활용하여 화학 텍스트 지식을 이해하고 활용하는 강력한 능력을 부여했습니다. 또한 강력한 이미지 인코더로 InternVIT-6B를 활용했습니다. 화학 영역에서 분자, 반응 공식, 화학 시험 데이터 등의 고품질 데이터를 선별하고, 이를 이중 언어 다중 모달 질의응답 데이터셋으로 편집했습니다. 우리 모델의 성능을 여러 오픈 소스 벤치마크 및 세 개의 사용자 정의 평가 세트에서 테스트했습니다. 실험 결과는 우리 모델이 6가지 작업 중 5가지에서 최첨단 결과를 달성하며 우수한 성능을 보여준다는 것을 입증했습니다. 저희 모델은 https://huggingface.co/AI4Chem/ChemVLM-26B에서 찾아볼 수 있습니다.