ChatPaper.aiChatPaper

InfiMM-HD: Прорыв в понимании мультимодальности высокого разрешения

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding

March 3, 2024
Авторы: Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
cs.AI

Аннотация

Многомодельные модели с большим языковым объемом (MLLM) недавно получили значительные преимущества. Тем не менее, остаются вызовы в точном распознавании и понимании сложных деталей в изображениях высокого разрешения. Несмотря на то, что это неотъемлемо для развития надежных MLLM, данная область остается мало исследованной. Для решения этой проблемы наша работа представляет InfiMM-HD, новую архитектуру, специально разработанную для обработки изображений разного разрешения с низким вычислительным нагрузкой. Это новшество способствует расширению возможностей MLLM до изображений более высокого разрешения. InfiMM-HD включает в себя модуль кросс-внимания и визуальные окна для снижения вычислительных затрат. Интегрируя эту архитектурную конструкцию с четырехэтапным обучающим конвейером, наша модель достигает улучшенного визуального восприятия эффективно и экономично. Эмпирическое исследование подчеркивает надежность и эффективность InfiMM-HD, открывая новые возможности для исследований в смежных областях. Коды и модели можно найти по ссылке https://huggingface.co/Infi-MM/infimm-hd
English
Multimodal Large Language Models (MLLMs) have experienced significant advancements recently. Nevertheless, challenges persist in the accurate recognition and comprehension of intricate details within high-resolution images. Despite being indispensable for the development of robust MLLMs, this area remains underinvestigated. To tackle this challenge, our work introduces InfiMM-HD, a novel architecture specifically designed for processing images of different resolutions with low computational overhead. This innovation facilitates the enlargement of MLLMs to higher-resolution capabilities. InfiMM-HD incorporates a cross-attention module and visual windows to reduce computation costs. By integrating this architectural design with a four-stage training pipeline, our model attains improved visual perception efficiently and cost-effectively. Empirical study underscores the robustness and effectiveness of InfiMM-HD, opening new avenues for exploration in related areas. Codes and models can be found at https://huggingface.co/Infi-MM/infimm-hd
PDF161December 15, 2024