ChatPaper.aiChatPaper

InfiMM-HD : Un bond en avant dans la compréhension multimodale haute résolution

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding

March 3, 2024
Auteurs: Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI

Résumé

Les modèles de langage multimodaux de grande taille (MLLMs) ont connu des avancées significatives récemment. Néanmoins, des défis persistent dans la reconnaissance et la compréhension précises des détails complexes au sein d'images haute résolution. Bien qu'indispensable au développement de MLLMs robustes, ce domaine reste sous-exploré. Pour relever ce défi, notre travail présente InfiMM-HD, une nouvelle architecture spécialement conçue pour traiter des images de différentes résolutions avec une faible surcharge computationnelle. Cette innovation facilite l'extension des MLLMs à des capacités de plus haute résolution. InfiMM-HD intègre un module d'attention croisée et des fenêtres visuelles pour réduire les coûts de calcul. En combinant cette conception architecturale avec un pipeline d'entraînement en quatre étapes, notre modèle atteint une perception visuelle améliorée de manière efficace et économique. Une étude empirique souligne la robustesse et l'efficacité d'InfiMM-HD, ouvrant de nouvelles voies d'exploration dans des domaines connexes. Les codes et modèles sont disponibles à l'adresse suivante : https://huggingface.co/Infi-MM/infimm-hd.
English
Multimodal Large Language Models (MLLMs) have experienced significant advancements recently. Nevertheless, challenges persist in the accurate recognition and comprehension of intricate details within high-resolution images. Despite being indispensable for the development of robust MLLMs, this area remains underinvestigated. To tackle this challenge, our work introduces InfiMM-HD, a novel architecture specifically designed for processing images of different resolutions with low computational overhead. This innovation facilitates the enlargement of MLLMs to higher-resolution capabilities. InfiMM-HD incorporates a cross-attention module and visual windows to reduce computation costs. By integrating this architectural design with a four-stage training pipeline, our model attains improved visual perception efficiently and cost-effectively. Empirical study underscores the robustness and effectiveness of InfiMM-HD, opening new avenues for exploration in related areas. Codes and models can be found at https://huggingface.co/Infi-MM/infimm-hd
PDF161December 15, 2024