InfiMM-HD: Un Passo Avanti nella Comprensione Multimodale ad Alta Risoluzione

Abstract

I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno registrato significativi progressi di recente. Tuttavia, permangono sfide nel riconoscimento accurato e nella comprensione di dettagli complessi all'interno di immagini ad alta risoluzione. Nonostante sia fondamentale per lo sviluppo di MLLMs robusti, quest'area rimane ancora poco esplorata. Per affrontare questa sfida, il nostro lavoro introduce InfiMM-HD, una nuova architettura progettata specificamente per elaborare immagini a diverse risoluzioni con un basso overhead computazionale. Questa innovazione facilita l'estensione delle capacità degli MLLMs a risoluzioni più elevate. InfiMM-HD incorpora un modulo di cross-attention e finestre visive per ridurre i costi computazionali. Integrando questo design architetturale con una pipeline di addestramento in quattro fasi, il nostro modello raggiunge una migliore percezione visiva in modo efficiente e conveniente. Uno studio empirico sottolinea la robustezza e l'efficacia di InfiMM-HD, aprendo nuove strade per l'esplorazione in aree correlate. Codici e modelli sono disponibili su https://huggingface.co/Infi-MM/infimm-hd.

English

Multimodal Large Language Models (MLLMs) have experienced significant advancements recently. Nevertheless, challenges persist in the accurate recognition and comprehension of intricate details within high-resolution images. Despite being indispensable for the development of robust MLLMs, this area remains underinvestigated. To tackle this challenge, our work introduces InfiMM-HD, a novel architecture specifically designed for processing images of different resolutions with low computational overhead. This innovation facilitates the enlargement of MLLMs to higher-resolution capabilities. InfiMM-HD incorporates a cross-attention module and visual windows to reduce computation costs. By integrating this architectural design with a four-stage training pipeline, our model attains improved visual perception efficiently and cost-effectively. Empirical study underscores the robustness and effectiveness of InfiMM-HD, opening new avenues for exploration in related areas. Codes and models can be found at https://huggingface.co/Infi-MM/infimm-hd

InfiMM-HD: Un Passo Avanti nella Comprensione Multimodale ad Alta Risoluzione

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding

Abstract

Support