ChatPaper.aiChatPaper

Sehen und Verstehen: Die Brücke zwischen Vision und chemischem Wissen durch ChemVLM

Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM

August 14, 2024
Autoren: Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI

Zusammenfassung

In diesem technischen Bericht schlagen wir ChemVLM vor, das erste Open-Source multimodale große Sprachmodell, das den Bereichen Chemie gewidmet ist und entwickelt wurde, um die Inkompatibilität zwischen der Verständnis chemischer Bilder und der Textanalyse zu bewältigen. Aufbauend auf der VIT-MLP-LLM-Architektur nutzen wir ChemLLM-20B als grundlegendes großes Modell, um unser Modell mit robusten Fähigkeiten im Verständnis und der Nutzung chemischer Textkenntnisse auszustatten. Darüber hinaus verwenden wir InternVIT-6B als leistungsstarken Bildcodierer. Wir haben hochwertige Daten aus dem chemischen Bereich, einschließlich Molekülen, Reaktionsformeln und Chemieprüfungsdaten, zusammengestellt und in einen zweisprachigen multimodalen Frage-Antwort-Datensatz integriert. Wir testen die Leistung unseres Modells an mehreren Open-Source-Benchmarks und drei benutzerdefinierten Auswertungssätzen. Die experimentellen Ergebnisse zeigen, dass unser Modell eine ausgezeichnete Leistung erzielt und in fünf von sechs beteiligten Aufgaben Spitzenleistung erbringt. Unser Modell ist unter https://huggingface.co/AI4Chem/ChemVLM-26B verfügbar.
English
In this technical report, we propose ChemVLM, the first open-source multimodal large language model dedicated to the fields of chemistry, designed to address the incompatibility between chemical image understanding and text analysis. Built upon the VIT-MLP-LLM architecture, we leverage ChemLLM-20B as the foundational large model, endowing our model with robust capabilities in understanding and utilizing chemical text knowledge. Additionally, we employ InternVIT-6B as a powerful image encoder. We have curated high-quality data from the chemical domain, including molecules, reaction formulas, and chemistry examination data, and compiled these into a bilingual multimodal question-answering dataset. We test the performance of our model on multiple open-source benchmarks and three custom evaluation sets. Experimental results demonstrate that our model achieves excellent performance, securing state-of-the-art results in five out of six involved tasks. Our model can be found at https://huggingface.co/AI4Chem/ChemVLM-26B.

Summary

AI-Generated Summary

PDF224November 28, 2024