Relatório Técnico do OmniFusion
OmniFusion Technical Report
April 9, 2024
Autores: Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, Maxim Kurkin, Irina Abdullaeva, Matvey Skripkin, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov
cs.AI
Resumo
No ano passado, as arquiteturas multimodais trouxeram uma revolução nas abordagens e soluções baseadas em IA, expandindo as capacidades dos grandes modelos de linguagem (LLM). Propomos um modelo OmniFusion baseado em um LLM pré-treinado e adaptadores para a modalidade visual. Avaliamos e comparamos vários princípios de design de arquitetura para um melhor acoplamento de dados textuais e visuais: adaptadores MLP e transformer, diversos codificadores baseados em CLIP ViT (SigLIP, InternVIT, etc.), sua abordagem de fusão, método de codificação de imagens (codificação da imagem inteira ou em blocos) e dois LLMs de 7B (um proprietário e o Mistral de código aberto). Experimentos em 8 benchmarks de linguagem visual mostram a pontuação máxima para a melhor configuração do OmniFusion em termos de diferentes tarefas de VQA em comparação com soluções de código aberto semelhantes ao LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Também propomos uma variedade de situações em que o OmniFusion fornece respostas altamente detalhadas em diferentes domínios: tarefas domésticas, turismo, cultura, medicina, reconhecimento de equações manuscritas e digitalizadas, etc. O modelo OmniFusion baseado no Mistral é uma solução de código aberto com pesos, scripts de treinamento e inferência disponíveis em https://github.com/AIRI-Institute/OmniFusion.
English
Last year, multimodal architectures served up a revolution in AI-based
approaches and solutions, extending the capabilities of large language models
(LLM). We propose an OmniFusion model based on a pretrained LLM and
adapters for visual modality. We evaluated and compared several architecture
design principles for better text and visual data coupling: MLP and transformer
adapters, various CLIP ViT-based encoders (SigLIP, InternVIT, etc.), and their
fusing approach, image encoding method (whole image or tiles encoding) and two
7B LLMs (the proprietary one and open-source Mistral). Experiments on 8
visual-language benchmarks show the top score for the best OmniFusion setup in
terms of different VQA tasks in comparison with open-source LLaVA-like
solutions: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. We
also propose a variety of situations, where OmniFusion provides highly-detailed
answers in different domains: housekeeping, sightseeing, culture, medicine,
handwritten and scanned equations recognition, etc. Mistral-based OmniFusion
model is an open-source solution with weights, training and inference scripts
available at https://github.com/AIRI-Institute/OmniFusion.