ChatPaper.aiChatPaper

Rapporto Tecnico OmniFusion

OmniFusion Technical Report

April 9, 2024
Autori: Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, Maxim Kurkin, Irina Abdullaeva, Matvey Skripkin, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov
cs.AI

Abstract

L'anno scorso, le architetture multimodali hanno portato una rivoluzione negli approcci e nelle soluzioni basate sull'IA, estendendo le capacità dei grandi modelli linguistici (LLM). Proponiamo un modello OmniFusion basato su un LLM preaddestrato e adattatori per la modalità visiva. Abbiamo valutato e confrontato diversi principi di progettazione architetturale per un migliore accoppiamento di dati testuali e visivi: adattatori MLP e transformer, vari encoder basati su CLIP ViT (SigLIP, InternVIT, ecc.), il loro approccio di fusione, il metodo di codifica delle immagini (codifica dell'intera immagine o a tasselli) e due LLM da 7B (uno proprietario e l'open-source Mistral). Gli esperimenti su 8 benchmark visivo-linguistici mostrano il punteggio più alto per la migliore configurazione di OmniFusion in termini di diversi compiti di VQA rispetto a soluzioni open-source simili a LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Proponiamo inoltre una varietà di situazioni in cui OmniFusion fornisce risposte altamente dettagliate in diversi domini: gestione domestica, visite turistiche, cultura, medicina, riconoscimento di equazioni scritte a mano e scansionate, ecc. Il modello OmniFusion basato su Mistral è una soluzione open-source con pesi, script di addestramento e inferenza disponibili all'indirizzo https://github.com/AIRI-Institute/OmniFusion.
English
Last year, multimodal architectures served up a revolution in AI-based approaches and solutions, extending the capabilities of large language models (LLM). We propose an OmniFusion model based on a pretrained LLM and adapters for visual modality. We evaluated and compared several architecture design principles for better text and visual data coupling: MLP and transformer adapters, various CLIP ViT-based encoders (SigLIP, InternVIT, etc.), and their fusing approach, image encoding method (whole image or tiles encoding) and two 7B LLMs (the proprietary one and open-source Mistral). Experiments on 8 visual-language benchmarks show the top score for the best OmniFusion setup in terms of different VQA tasks in comparison with open-source LLaVA-like solutions: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. We also propose a variety of situations, where OmniFusion provides highly-detailed answers in different domains: housekeeping, sightseeing, culture, medicine, handwritten and scanned equations recognition, etc. Mistral-based OmniFusion model is an open-source solution with weights, training and inference scripts available at https://github.com/AIRI-Institute/OmniFusion.
PDF7710December 15, 2024