Rapport Technique OmniFusion
OmniFusion Technical Report
April 9, 2024
Auteurs: Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, Maxim Kurkin, Irina Abdullaeva, Matvey Skripkin, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov
cs.AI
Résumé
L'année dernière, les architectures multimodales ont révolutionné les approches et solutions basées sur l'IA, étendant les capacités des grands modèles de langage (LLM). Nous proposons un modèle OmniFusion basé sur un LLM pré-entraîné et des adaptateurs pour la modalité visuelle. Nous avons évalué et comparé plusieurs principes de conception architecturale pour un meilleur couplage des données textuelles et visuelles : adaptateurs MLP et transformeurs, divers encodeurs basés sur CLIP ViT (SigLIP, InternVIT, etc.), leur approche de fusion, la méthode d'encodage d'images (encodage de l'image entière ou par tuiles) et deux LLM de 7B (un modèle propriétaire et le modèle open-source Mistral). Les expériences sur 8 benchmarks visuels-linguistiques montrent le score le plus élevé pour la meilleure configuration d'OmniFusion en termes de différentes tâches de VQA par rapport aux solutions open-source de type LLaVA : VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Nous proposons également une variété de situations où OmniFusion fournit des réponses très détaillées dans différents domaines : gestion domestique, tourisme, culture, médecine, reconnaissance d'équations manuscrites et scannées, etc. Le modèle OmniFusion basé sur Mistral est une solution open-source avec les poids, les scripts d'entraînement et d'inférence disponibles à l'adresse https://github.com/AIRI-Institute/OmniFusion.
English
Last year, multimodal architectures served up a revolution in AI-based
approaches and solutions, extending the capabilities of large language models
(LLM). We propose an OmniFusion model based on a pretrained LLM and
adapters for visual modality. We evaluated and compared several architecture
design principles for better text and visual data coupling: MLP and transformer
adapters, various CLIP ViT-based encoders (SigLIP, InternVIT, etc.), and their
fusing approach, image encoding method (whole image or tiles encoding) and two
7B LLMs (the proprietary one and open-source Mistral). Experiments on 8
visual-language benchmarks show the top score for the best OmniFusion setup in
terms of different VQA tasks in comparison with open-source LLaVA-like
solutions: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. We
also propose a variety of situations, where OmniFusion provides highly-detailed
answers in different domains: housekeeping, sightseeing, culture, medicine,
handwritten and scanned equations recognition, etc. Mistral-based OmniFusion
model is an open-source solution with weights, training and inference scripts
available at https://github.com/AIRI-Institute/OmniFusion.Summary
AI-Generated Summary