ChatPaper.aiChatPaper

Informe Técnico de OmniFusion

OmniFusion Technical Report

April 9, 2024
Autores: Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, Maxim Kurkin, Irina Abdullaeva, Matvey Skripkin, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov
cs.AI

Resumen

El año pasado, las arquitecturas multimodales impulsaron una revolución en los enfoques y soluciones basados en IA, ampliando las capacidades de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Proponemos un modelo OmniFusion basado en un LLM preentrenado y adaptadores para la modalidad visual. Evaluamos y comparamos varios principios de diseño arquitectónico para lograr un mejor acoplamiento entre datos textuales y visuales: adaptadores MLP y transformadores, diversos codificadores basados en CLIP ViT (SigLIP, InternVIT, etc.), su enfoque de fusión, el método de codificación de imágenes (codificación de la imagen completa o por segmentos) y dos LLM de 7B (uno propietario y el de código abierto Mistral). Los experimentos en 8 benchmarks de lenguaje visual muestran la puntuación más alta para la mejor configuración de OmniFusion en términos de diferentes tareas de VQA (respuesta a preguntas visuales) en comparación con soluciones de código abierto similares a LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. También proponemos una variedad de situaciones en las que OmniFusion proporciona respuestas altamente detalladas en diferentes dominios: tareas del hogar, turismo, cultura, medicina, reconocimiento de ecuaciones escritas a mano y escaneadas, etc. El modelo OmniFusion basado en Mistral es una solución de código abierto con pesos, scripts de entrenamiento e inferencia disponibles en https://github.com/AIRI-Institute/OmniFusion.
English
Last year, multimodal architectures served up a revolution in AI-based approaches and solutions, extending the capabilities of large language models (LLM). We propose an OmniFusion model based on a pretrained LLM and adapters for visual modality. We evaluated and compared several architecture design principles for better text and visual data coupling: MLP and transformer adapters, various CLIP ViT-based encoders (SigLIP, InternVIT, etc.), and their fusing approach, image encoding method (whole image or tiles encoding) and two 7B LLMs (the proprietary one and open-source Mistral). Experiments on 8 visual-language benchmarks show the top score for the best OmniFusion setup in terms of different VQA tasks in comparison with open-source LLaVA-like solutions: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. We also propose a variety of situations, where OmniFusion provides highly-detailed answers in different domains: housekeeping, sightseeing, culture, medicine, handwritten and scanned equations recognition, etc. Mistral-based OmniFusion model is an open-source solution with weights, training and inference scripts available at https://github.com/AIRI-Institute/OmniFusion.

Summary

AI-Generated Summary

PDF7810December 15, 2024