Технический отчет по OmniFusionOmniFusion Technical Report
В прошлом году мультимодальные архитектуры привнесли революцию в подходы и решения на основе искусственного интеллекта, расширяя возможности крупных языковых моделей (LLM). Мы предлагаем модель OmniFusion на основе предварительно обученной LLM и адаптеров для визуальной модальности. Мы оценили и сравнили несколько принципов архитектурного проектирования для лучшей связи текстовых и визуальных данных: адаптеры MLP и трансформер, различные кодировщики на основе CLIP ViT (SigLIP, InternVIT и т. д.) и их подход к объединению, метод кодирования изображения (все изображение или кодирование плитками) и две LLM на 7 миллиардов параметров (проприетарная и открытая Mistral). Эксперименты на 8 визуально-языковых бенчмарках показывают лучший результат для наилучшей настройки OmniFusion по сравнению с решениями вроде LLaVA: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Мы также предлагаем различные ситуации, в которых OmniFusion предоставляет подробные ответы в различных областях: домашнее хозяйство, осмотр достопримечательностей, культура, медицина, распознавание рукописных и отсканированных уравнений и т. д. Модель OmniFusion на основе Mistral является решением с открытым исходным кодом, весами, скриптами обучения и вывода, доступными по адресу https://github.com/AIRI-Institute/OmniFusion.