ChatPaper.aiChatPaper

InfiMM-HD: Een Sprong Voorwaarts in Hoogwaardige Multimodale Begripsvorming

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding

March 3, 2024
Auteurs: Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI

Samenvatting

Multimodale Large Language Models (MLLMs) hebben recentelijk aanzienlijke vooruitgang geboekt. Desalniettemin blijven er uitdagingen bestaan op het gebied van de nauwkeurige herkenning en interpretatie van complexe details in hoogresolutiebeelden. Hoewel dit essentieel is voor de ontwikkeling van robuuste MLLMs, blijft dit gebied onderbelicht. Om deze uitdaging aan te pakken, introduceert ons werk InfiMM-HD, een nieuwe architectuur die specifiek is ontworpen voor het verwerken van afbeeldingen met verschillende resoluties met een lage rekenkundige overhead. Deze innovatie maakt het mogelijk om MLLMs uit te breiden naar hogere-resolutiecapaciteiten. InfiMM-HD integreert een cross-attention module en visuele vensters om de rekenkosten te verlagen. Door deze architectuur te combineren met een vierfasen trainingspijplijn, bereikt ons model efficiënt en kosteneffectief een verbeterde visuele perceptie. Empirisch onderzoek onderstreept de robuustheid en effectiviteit van InfiMM-HD, wat nieuwe onderzoeksmogelijkheden opent in verwante gebieden. Codes en modellen zijn beschikbaar op https://huggingface.co/Infi-MM/infimm-hd.
English
Multimodal Large Language Models (MLLMs) have experienced significant advancements recently. Nevertheless, challenges persist in the accurate recognition and comprehension of intricate details within high-resolution images. Despite being indispensable for the development of robust MLLMs, this area remains underinvestigated. To tackle this challenge, our work introduces InfiMM-HD, a novel architecture specifically designed for processing images of different resolutions with low computational overhead. This innovation facilitates the enlargement of MLLMs to higher-resolution capabilities. InfiMM-HD incorporates a cross-attention module and visual windows to reduce computation costs. By integrating this architectural design with a four-stage training pipeline, our model attains improved visual perception efficiently and cost-effectively. Empirical study underscores the robustness and effectiveness of InfiMM-HD, opening new avenues for exploration in related areas. Codes and models can be found at https://huggingface.co/Infi-MM/infimm-hd
PDF161December 15, 2024