ChatPaper.aiChatPaper

InfiMM-HD: Um Salto à Frente na Compreensão Multimodal de Alta Resolução

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding

March 3, 2024
Autores: Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI

Resumo

Os Modelos de Linguagem Multimodal de Grande Escala (MLLMs) têm experimentado avanços significativos recentemente. No entanto, desafios persistem no reconhecimento e compreensão precisos de detalhes intrincados em imagens de alta resolução. Apesar de ser indispensável para o desenvolvimento de MLLMs robustos, essa área permanece subinvestigada. Para enfrentar esse desafio, nosso trabalho introduz o InfiMM-HD, uma nova arquitetura projetada especificamente para processar imagens de diferentes resoluções com baixo custo computacional. Essa inovação facilita a expansão dos MLLMs para capacidades de maior resolução. O InfiMM-HD incorpora um módulo de atenção cruzada e janelas visuais para reduzir os custos de computação. Ao integrar esse design arquitetônico com um pipeline de treinamento em quatro estágios, nosso modelo alcança uma percepção visual aprimorada de forma eficiente e econômica. Estudos empíricos destacam a robustez e eficácia do InfiMM-HD, abrindo novas vias de exploração em áreas relacionadas. Códigos e modelos podem ser encontrados em https://huggingface.co/Infi-MM/infimm-hd.
English
Multimodal Large Language Models (MLLMs) have experienced significant advancements recently. Nevertheless, challenges persist in the accurate recognition and comprehension of intricate details within high-resolution images. Despite being indispensable for the development of robust MLLMs, this area remains underinvestigated. To tackle this challenge, our work introduces InfiMM-HD, a novel architecture specifically designed for processing images of different resolutions with low computational overhead. This innovation facilitates the enlargement of MLLMs to higher-resolution capabilities. InfiMM-HD incorporates a cross-attention module and visual windows to reduce computation costs. By integrating this architectural design with a four-stage training pipeline, our model attains improved visual perception efficiently and cost-effectively. Empirical study underscores the robustness and effectiveness of InfiMM-HD, opening new avenues for exploration in related areas. Codes and models can be found at https://huggingface.co/Infi-MM/infimm-hd
PDF161December 15, 2024