ChatPaper.aiChatPaper

InfiMM-HD: Un Passo Avanti nella Comprensione Multimodale ad Alta Risoluzione

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding

March 3, 2024
Autori: Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI

Abstract

I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno registrato significativi progressi di recente. Tuttavia, permangono sfide nel riconoscimento accurato e nella comprensione di dettagli complessi all'interno di immagini ad alta risoluzione. Nonostante sia fondamentale per lo sviluppo di MLLMs robusti, quest'area rimane ancora poco esplorata. Per affrontare questa sfida, il nostro lavoro introduce InfiMM-HD, una nuova architettura progettata specificamente per elaborare immagini a diverse risoluzioni con un basso overhead computazionale. Questa innovazione facilita l'estensione delle capacità degli MLLMs a risoluzioni più elevate. InfiMM-HD incorpora un modulo di cross-attention e finestre visive per ridurre i costi computazionali. Integrando questo design architetturale con una pipeline di addestramento in quattro fasi, il nostro modello raggiunge una migliore percezione visiva in modo efficiente e conveniente. Uno studio empirico sottolinea la robustezza e l'efficacia di InfiMM-HD, aprendo nuove strade per l'esplorazione in aree correlate. Codici e modelli sono disponibili su https://huggingface.co/Infi-MM/infimm-hd.
English
Multimodal Large Language Models (MLLMs) have experienced significant advancements recently. Nevertheless, challenges persist in the accurate recognition and comprehension of intricate details within high-resolution images. Despite being indispensable for the development of robust MLLMs, this area remains underinvestigated. To tackle this challenge, our work introduces InfiMM-HD, a novel architecture specifically designed for processing images of different resolutions with low computational overhead. This innovation facilitates the enlargement of MLLMs to higher-resolution capabilities. InfiMM-HD incorporates a cross-attention module and visual windows to reduce computation costs. By integrating this architectural design with a four-stage training pipeline, our model attains improved visual perception efficiently and cost-effectively. Empirical study underscores the robustness and effectiveness of InfiMM-HD, opening new avenues for exploration in related areas. Codes and models can be found at https://huggingface.co/Infi-MM/infimm-hd
PDF161December 15, 2024