InfiMM-HD: Un Avance en la Comprensión Multimodal de Alta Resolución

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han experimentado avances significativos recientemente. Sin embargo, persisten desafíos en el reconocimiento preciso y la comprensión de detalles intrincados dentro de imágenes de alta resolución. A pesar de ser indispensables para el desarrollo de MLLMs robustos, esta área sigue estando poco investigada. Para abordar este desafío, nuestro trabajo introduce InfiMM-HD, una arquitectura novedosa diseñada específicamente para procesar imágenes de diferentes resoluciones con un bajo costo computacional. Esta innovación facilita la ampliación de los MLLMs hacia capacidades de mayor resolución. InfiMM-HD incorpora un módulo de atención cruzada y ventanas visuales para reducir los costos de computación. Al integrar este diseño arquitectónico con una canalización de entrenamiento en cuatro etapas, nuestro modelo alcanza una percepción visual mejorada de manera eficiente y rentable. El estudio empírico subraya la robustez y efectividad de InfiMM-HD, abriendo nuevas vías de exploración en áreas relacionadas. Los códigos y modelos pueden encontrarse en https://huggingface.co/Infi-MM/infimm-hd.

English

Multimodal Large Language Models (MLLMs) have experienced significant advancements recently. Nevertheless, challenges persist in the accurate recognition and comprehension of intricate details within high-resolution images. Despite being indispensable for the development of robust MLLMs, this area remains underinvestigated. To tackle this challenge, our work introduces InfiMM-HD, a novel architecture specifically designed for processing images of different resolutions with low computational overhead. This innovation facilitates the enlargement of MLLMs to higher-resolution capabilities. InfiMM-HD incorporates a cross-attention module and visual windows to reduce computation costs. By integrating this architectural design with a four-stage training pipeline, our model attains improved visual perception efficiently and cost-effectively. Empirical study underscores the robustness and effectiveness of InfiMM-HD, opening new avenues for exploration in related areas. Codes and models can be found at https://huggingface.co/Infi-MM/infimm-hd

InfiMM-HD: Un Avance en la Comprensión Multimodal de Alta Resolución

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding

Resumen

Support