InfiMM-HD: Ein Fortschritt im hochauflösenden multimodalen Verständnis
InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding
March 3, 2024
Autoren: Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) haben in letzter Zeit bedeutende Fortschritte erzielt. Dennoch bestehen weiterhin Herausforderungen bei der präzisen Erkennung und dem Verständnis komplexer Details in hochauflösenden Bildern. Obwohl dieser Bereich für die Entwicklung robuster MLLMs unerlässlich ist, bleibt er bisher untererforscht. Um diese Herausforderung zu bewältigen, stellt unsere Arbeit InfiMM-HD vor, eine neuartige Architektur, die speziell für die Verarbeitung von Bildern unterschiedlicher Auflösungen mit geringem Rechenaufwand entwickelt wurde. Diese Innovation ermöglicht die Erweiterung von MLLMs auf höhere Auflösungsfähigkeiten. InfiMM-HD integriert ein Cross-Attention-Modul und visuelle Fenster, um die Rechenkosten zu reduzieren. Durch die Kombination dieses Architekturdesigns mit einer vierstufigen Trainingspipeline erreicht unser Modell eine verbesserte visuelle Wahrnehmung effizient und kostengünstig. Empirische Studien unterstreichen die Robustheit und Effektivität von InfiMM-HD und eröffnen neue Wege für die Erforschung verwandter Bereiche. Codes und Modelle sind unter https://huggingface.co/Infi-MM/infimm-hd verfügbar.
English
Multimodal Large Language Models (MLLMs) have experienced significant
advancements recently. Nevertheless, challenges persist in the accurate
recognition and comprehension of intricate details within high-resolution
images. Despite being indispensable for the development of robust MLLMs, this
area remains underinvestigated. To tackle this challenge, our work introduces
InfiMM-HD, a novel architecture specifically designed for processing images of
different resolutions with low computational overhead. This innovation
facilitates the enlargement of MLLMs to higher-resolution capabilities.
InfiMM-HD incorporates a cross-attention module and visual windows to reduce
computation costs. By integrating this architectural design with a four-stage
training pipeline, our model attains improved visual perception efficiently and
cost-effectively. Empirical study underscores the robustness and effectiveness
of InfiMM-HD, opening new avenues for exploration in related areas. Codes and
models can be found at https://huggingface.co/Infi-MM/infimm-hd