InfiMM-HD: Un Passo Avanti nella Comprensione Multimodale ad Alta Risoluzione
InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding
March 3, 2024
Autori: Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno registrato significativi progressi di recente. Tuttavia, permangono sfide nel riconoscimento accurato e nella comprensione di dettagli complessi all'interno di immagini ad alta risoluzione. Nonostante sia fondamentale per lo sviluppo di MLLMs robusti, quest'area rimane ancora poco esplorata. Per affrontare questa sfida, il nostro lavoro introduce InfiMM-HD, una nuova architettura progettata specificamente per elaborare immagini a diverse risoluzioni con un basso overhead computazionale. Questa innovazione facilita l'estensione delle capacità degli MLLMs a risoluzioni più elevate. InfiMM-HD incorpora un modulo di cross-attention e finestre visive per ridurre i costi computazionali. Integrando questo design architetturale con una pipeline di addestramento in quattro fasi, il nostro modello raggiunge una migliore percezione visiva in modo efficiente e conveniente. Uno studio empirico sottolinea la robustezza e l'efficacia di InfiMM-HD, aprendo nuove strade per l'esplorazione in aree correlate. Codici e modelli sono disponibili su https://huggingface.co/Infi-MM/infimm-hd.
English
Multimodal Large Language Models (MLLMs) have experienced significant
advancements recently. Nevertheless, challenges persist in the accurate
recognition and comprehension of intricate details within high-resolution
images. Despite being indispensable for the development of robust MLLMs, this
area remains underinvestigated. To tackle this challenge, our work introduces
InfiMM-HD, a novel architecture specifically designed for processing images of
different resolutions with low computational overhead. This innovation
facilitates the enlargement of MLLMs to higher-resolution capabilities.
InfiMM-HD incorporates a cross-attention module and visual windows to reduce
computation costs. By integrating this architectural design with a four-stage
training pipeline, our model attains improved visual perception efficiently and
cost-effectively. Empirical study underscores the robustness and effectiveness
of InfiMM-HD, opening new avenues for exploration in related areas. Codes and
models can be found at https://huggingface.co/Infi-MM/infimm-hd