全方位融合技術報告OmniFusion Technical Report
去年,多模態架構在基於人工智慧的方法和解決方案中引發了一場革命,擴展了大型語言模型(LLM)的能力。我們提出了一個基於預訓練LLM和視覺模態適配器的 OmniFusion 模型。我們評估並比較了幾種架構設計原則,以實現更好的文本和視覺數據耦合:MLP和變壓器適配器、各種基於CLIP ViT的編碼器(如 SigLIP、InternVIT 等)及其融合方法、圖像編碼方法(整個圖像或瓷磚編碼)以及兩個7B的LLM(專有的和開源的 Mistral)。在8個視覺語言基準測試中進行的實驗顯示,在不同的視覺問答任務方面,最佳 OmniFusion 設置的得分優於開源的類似LLaVA的解決方案:VizWiz、Pope、MM-Vet、ScienceQA、MMBench、TextVQA、VQAv2、MMMU。我們還提出了各種情況,其中 OmniFusion 在不同領域提供了高度詳細的答案:家務、觀光、文化、醫學、手寫和掃描方程式識別等。基於 Mistral 的 OmniFusion 模型是一個開源解決方案,權重、訓練和推理腳本可在 https://github.com/AIRI-Institute/OmniFusion 上找到。