OmniFusion Technischer BerichtOmniFusion Technical Report
Im vergangenen Jahr haben multimodale Architekturen eine Revolution in KI-basierten Ansätzen und Lösungen eingeleitet, die die Fähigkeiten großer Sprachmodelle erweitern. Wir schlagen ein OmniFusion-Modell vor, das auf einem vorab trainierten Sprachmodell basiert und Adapter für die visuelle Modalität enthält. Wir haben verschiedene Architekturentwurfsprinzipien zur besseren Kopplung von Text- und visuellen Daten evaluiert und verglichen: MLP- und Transformer-Adapter, verschiedene CLIP ViT-basierte Encoder (SigLIP, InternVIT usw.) und ihren Verschmelzungsansatz, die Bildcodierungsmethode (Gesamtbild oder Kachelcodierung) und zwei 7B-Sprachmodelle (das proprietäre und das Open-Source-Modell Mistral). Experimente an 8 visuell-sprachlichen Benchmarktests zeigen die Bestleistung für das beste OmniFusion-Setup in Bezug auf verschiedene VQA-Aufgaben im Vergleich zu Open-Source-Lösungen wie LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Wir schlagen auch verschiedene Situationen vor, in denen OmniFusion hochdetaillierte Antworten in verschiedenen Bereichen liefert: Hausverwaltung, Sightseeing, Kultur, Medizin, Erkennung von handgeschriebenen und gescannten Gleichungen usw. Das auf Mistral basierende OmniFusion-Modell ist eine Open-Source-Lösung mit verfügbaren Gewichten, Trainings- und Inferenzskripten unter https://github.com/AIRI-Institute/OmniFusion.