ChatPaper.aiChatPaper

MG-LLaVA: К многоуровневой настройке визуальных инструкций.

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

June 25, 2024
Авторы: Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang
cs.AI

Аннотация

Много-модальные модели языка больших размеров (MLLM) сделали значительные успехи в различных задачах визуального понимания. Однако большинство этих моделей ограничены в обработке изображений низкого разрешения, что ограничивает их эффективность в задачах восприятия, требующих детальной визуальной информации. В нашем исследовании мы представляем MG-LLaVA, инновационную MLLM, улучшающую визуальные возможности модели путем включения многогранного потока видения, включающего функции низкого разрешения, высокого разрешения и объектно-центричные функции. Мы предлагаем интеграцию дополнительного визуального кодера высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными функциями через сеть объединения Conv-Gate. Для дальнейшего совершенствования способностей модели к распознаванию объектов мы включаем функции на уровне объектов, полученные из ограничивающих рамок, идентифицированных автономными детекторами. Обученная исключительно на общедоступных мультимодальных данных с помощью настройки инструкций, MG-LLaVA демонстрирует исключительные навыки восприятия. Мы создаем экземпляр MG-LLaVA с широким спектром языковых кодировщиков от 3,8 миллиардов до 34 миллиардов, чтобы полноценно оценить производительность модели. Обширные оценки по нескольким бенчмаркам показывают, что MG-LLaVA превосходит существующие MLLM с сопоставимыми размерами параметров, демонстрируя свою замечательную эффективность. Код будет доступен по ссылке https://github.com/PhoenixZ810/MG-LLaVA.
English
Multi-modal large language models (MLLMs) have made significant strides in various visual understanding tasks. However, the majority of these models are constrained to process low-resolution images, which limits their effectiveness in perception tasks that necessitate detailed visual information. In our study, we present MG-LLaVA, an innovative MLLM that enhances the model's visual processing capabilities by incorporating a multi-granularity vision flow, which includes low-resolution, high-resolution, and object-centric features. We propose the integration of an additional high-resolution visual encoder to capture fine-grained details, which are then fused with base visual features through a Conv-Gate fusion network. To further refine the model's object recognition abilities, we incorporate object-level features derived from bounding boxes identified by offline detectors. Being trained solely on publicly available multimodal data through instruction tuning, MG-LLaVA demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's performance comprehensively. Extensive evaluations across multiple benchmarks demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter sizes, showcasing its remarkable efficacy. The code will be available at https://github.com/PhoenixZ810/MG-LLaVA.

Summary

AI-Generated Summary

PDF191November 29, 2024