InfiMM-HD: Un Avance en la Comprensión Multimodal de Alta Resolución
InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding
March 3, 2024
Autores: Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han experimentado avances significativos recientemente. Sin embargo, persisten desafíos en el reconocimiento preciso y la comprensión de detalles intrincados dentro de imágenes de alta resolución. A pesar de ser indispensables para el desarrollo de MLLMs robustos, esta área sigue estando poco investigada. Para abordar este desafío, nuestro trabajo introduce InfiMM-HD, una arquitectura novedosa diseñada específicamente para procesar imágenes de diferentes resoluciones con un bajo costo computacional. Esta innovación facilita la ampliación de los MLLMs hacia capacidades de mayor resolución. InfiMM-HD incorpora un módulo de atención cruzada y ventanas visuales para reducir los costos de computación. Al integrar este diseño arquitectónico con una canalización de entrenamiento en cuatro etapas, nuestro modelo alcanza una percepción visual mejorada de manera eficiente y rentable. El estudio empírico subraya la robustez y efectividad de InfiMM-HD, abriendo nuevas vías de exploración en áreas relacionadas. Los códigos y modelos pueden encontrarse en https://huggingface.co/Infi-MM/infimm-hd.
English
Multimodal Large Language Models (MLLMs) have experienced significant
advancements recently. Nevertheless, challenges persist in the accurate
recognition and comprehension of intricate details within high-resolution
images. Despite being indispensable for the development of robust MLLMs, this
area remains underinvestigated. To tackle this challenge, our work introduces
InfiMM-HD, a novel architecture specifically designed for processing images of
different resolutions with low computational overhead. This innovation
facilitates the enlargement of MLLMs to higher-resolution capabilities.
InfiMM-HD incorporates a cross-attention module and visual windows to reduce
computation costs. By integrating this architectural design with a four-stage
training pipeline, our model attains improved visual perception efficiently and
cost-effectively. Empirical study underscores the robustness and effectiveness
of InfiMM-HD, opening new avenues for exploration in related areas. Codes and
models can be found at https://huggingface.co/Infi-MM/infimm-hd