Informe Técnico de OmniFusionOmniFusion Technical Report
El año pasado, las arquitecturas multimodales impulsaron una revolución en los enfoques y soluciones basados en IA, ampliando las capacidades de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Proponemos un modelo OmniFusion basado en un LLM preentrenado y adaptadores para la modalidad visual. Evaluamos y comparamos varios principios de diseño arquitectónico para lograr un mejor acoplamiento entre datos textuales y visuales: adaptadores MLP y transformadores, diversos codificadores basados en CLIP ViT (SigLIP, InternVIT, etc.), su enfoque de fusión, el método de codificación de imágenes (codificación de la imagen completa o por segmentos) y dos LLM de 7B (uno propietario y el de código abierto Mistral). Los experimentos en 8 benchmarks de lenguaje visual muestran la puntuación más alta para la mejor configuración de OmniFusion en términos de diferentes tareas de VQA (respuesta a preguntas visuales) en comparación con soluciones de código abierto similares a LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. También proponemos una variedad de situaciones en las que OmniFusion proporciona respuestas altamente detalladas en diferentes dominios: tareas del hogar, turismo, cultura, medicina, reconocimiento de ecuaciones escritas a mano y escaneadas, etc. El modelo OmniFusion basado en Mistral es una solución de código abierto con pesos, scripts de entrenamiento e inferencia disponibles en https://github.com/AIRI-Institute/OmniFusion.