Sehen und Verstehen: Die Brücke zwischen Vision und chemischem Wissen durch ChemVLMSeeing and Understanding: Bridging Vision with Chemical Knowledge Via
ChemVLM
In diesem technischen Bericht schlagen wir ChemVLM vor, das erste Open-Source multimodale große Sprachmodell, das den Bereichen Chemie gewidmet ist und entwickelt wurde, um die Inkompatibilität zwischen der Verständnis chemischer Bilder und der Textanalyse zu bewältigen. Aufbauend auf der VIT-MLP-LLM-Architektur nutzen wir ChemLLM-20B als grundlegendes großes Modell, um unser Modell mit robusten Fähigkeiten im Verständnis und der Nutzung chemischer Textkenntnisse auszustatten. Darüber hinaus verwenden wir InternVIT-6B als leistungsstarken Bildcodierer. Wir haben hochwertige Daten aus dem chemischen Bereich, einschließlich Molekülen, Reaktionsformeln und Chemieprüfungsdaten, zusammengestellt und in einen zweisprachigen multimodalen Frage-Antwort-Datensatz integriert. Wir testen die Leistung unseres Modells an mehreren Open-Source-Benchmarks und drei benutzerdefinierten Auswertungssätzen. Die experimentellen Ergebnisse zeigen, dass unser Modell eine ausgezeichnete Leistung erzielt und in fünf von sechs beteiligten Aufgaben Spitzenleistung erbringt. Unser Modell ist unter https://huggingface.co/AI4Chem/ChemVLM-26B verfügbar.