OmniFusion 기술 보고서OmniFusion Technical Report
작년, 다중모달 아키텍처는 대규모 언어 모델(LLM)의 능력을 확장하며 AI 기반 접근법과 솔루션 분야에서 혁명을 일으켰습니다. 우리는 사전 학습된 LLM과 시각 모달리티를 위한 어댑터를 기반으로 한 OmniFusion 모델을 제안합니다. 우리는 더 나은 텍스트와 시각 데이터 결합을 위한 여러 아키텍처 설계 원칙을 평가하고 비교했습니다: MLP 및 트랜스포머 어댑터, 다양한 CLIP ViT 기반 인코더(SigLIP, InternVIT 등), 이들의 융합 방식, 이미지 인코딩 방법(전체 이미지 또는 타일 인코딩), 그리고 두 가지 7B LLM(독점 모델과 오픈소스 Mistral). 8개의 시각-언어 벤치마크에서 수행한 실험은 다양한 VQA 작업에서 오픈소스 LLaVA 유사 솔루션과 비교하여 최고의 OmniFusion 설정이 최고 점수를 기록했음을 보여줍니다: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. 또한 우리는 OmniFusion이 가정 관리, 관광, 문화, 의학, 필기 및 스캔된 수식 인식 등 다양한 분야에서 매우 상세한 답변을 제공하는 다양한 상황을 제안합니다. Mistral 기반 OmniFusion 모델은 오픈소스 솔루션으로, 가중치, 훈련 및 추론 스크립트가 https://github.com/AIRI-Institute/OmniFusion에서 제공됩니다.