ChatPaper.aiChatPaper

InfiMM-HD: Ein Fortschritt im hochauflösenden multimodalen Verständnis

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding

March 3, 2024
Autoren: Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI

Zusammenfassung

Multimodale Large Language Models (MLLMs) haben in letzter Zeit bedeutende Fortschritte erzielt. Dennoch bestehen weiterhin Herausforderungen bei der präzisen Erkennung und dem Verständnis komplexer Details in hochauflösenden Bildern. Obwohl dieser Bereich für die Entwicklung robuster MLLMs unerlässlich ist, bleibt er bisher untererforscht. Um diese Herausforderung zu bewältigen, stellt unsere Arbeit InfiMM-HD vor, eine neuartige Architektur, die speziell für die Verarbeitung von Bildern unterschiedlicher Auflösungen mit geringem Rechenaufwand entwickelt wurde. Diese Innovation ermöglicht die Erweiterung von MLLMs auf höhere Auflösungsfähigkeiten. InfiMM-HD integriert ein Cross-Attention-Modul und visuelle Fenster, um die Rechenkosten zu reduzieren. Durch die Kombination dieses Architekturdesigns mit einer vierstufigen Trainingspipeline erreicht unser Modell eine verbesserte visuelle Wahrnehmung effizient und kostengünstig. Empirische Studien unterstreichen die Robustheit und Effektivität von InfiMM-HD und eröffnen neue Wege für die Erforschung verwandter Bereiche. Codes und Modelle sind unter https://huggingface.co/Infi-MM/infimm-hd verfügbar.
English
Multimodal Large Language Models (MLLMs) have experienced significant advancements recently. Nevertheless, challenges persist in the accurate recognition and comprehension of intricate details within high-resolution images. Despite being indispensable for the development of robust MLLMs, this area remains underinvestigated. To tackle this challenge, our work introduces InfiMM-HD, a novel architecture specifically designed for processing images of different resolutions with low computational overhead. This innovation facilitates the enlargement of MLLMs to higher-resolution capabilities. InfiMM-HD incorporates a cross-attention module and visual windows to reduce computation costs. By integrating this architectural design with a four-stage training pipeline, our model attains improved visual perception efficiently and cost-effectively. Empirical study underscores the robustness and effectiveness of InfiMM-HD, opening new avenues for exploration in related areas. Codes and models can be found at https://huggingface.co/Infi-MM/infimm-hd
PDF161December 15, 2024