InfiMM-HD: Een Sprong Voorwaarts in Hoogwaardige Multimodale Begripsvorming
InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding
March 3, 2024
Auteurs: Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) hebben recentelijk aanzienlijke vooruitgang geboekt. Desalniettemin blijven er uitdagingen bestaan op het gebied van de nauwkeurige herkenning en interpretatie van complexe details in hoogresolutiebeelden. Hoewel dit essentieel is voor de ontwikkeling van robuuste MLLMs, blijft dit gebied onderbelicht. Om deze uitdaging aan te pakken, introduceert ons werk InfiMM-HD, een nieuwe architectuur die specifiek is ontworpen voor het verwerken van afbeeldingen met verschillende resoluties met een lage rekenkundige overhead. Deze innovatie maakt het mogelijk om MLLMs uit te breiden naar hogere-resolutiecapaciteiten. InfiMM-HD integreert een cross-attention module en visuele vensters om de rekenkosten te verlagen. Door deze architectuur te combineren met een vierfasen trainingspijplijn, bereikt ons model efficiënt en kosteneffectief een verbeterde visuele perceptie. Empirisch onderzoek onderstreept de robuustheid en effectiviteit van InfiMM-HD, wat nieuwe onderzoeksmogelijkheden opent in verwante gebieden. Codes en modellen zijn beschikbaar op https://huggingface.co/Infi-MM/infimm-hd.
English
Multimodal Large Language Models (MLLMs) have experienced significant
advancements recently. Nevertheless, challenges persist in the accurate
recognition and comprehension of intricate details within high-resolution
images. Despite being indispensable for the development of robust MLLMs, this
area remains underinvestigated. To tackle this challenge, our work introduces
InfiMM-HD, a novel architecture specifically designed for processing images of
different resolutions with low computational overhead. This innovation
facilitates the enlargement of MLLMs to higher-resolution capabilities.
InfiMM-HD incorporates a cross-attention module and visual windows to reduce
computation costs. By integrating this architectural design with a four-stage
training pipeline, our model attains improved visual perception efficiently and
cost-effectively. Empirical study underscores the robustness and effectiveness
of InfiMM-HD, opening new avenues for exploration in related areas. Codes and
models can be found at https://huggingface.co/Infi-MM/infimm-hd