ChatPaper.aiChatPaper

Réseaux pyramidaux d'images inversées de paramètres pour la perception visuelle et la compréhension multimodale

Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding

January 14, 2025
Auteurs: Zhaokai Wang, Xizhou Zhu, Xue Yang, Gen Luo, Hao Li, Changyao Tian, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai
cs.AI

Résumé

Les pyramides d'images sont largement adoptées dans les méthodes les plus performantes pour obtenir des caractéristiques multi-échelles permettant une perception visuelle et une compréhension précises. Cependant, les pyramides d'images actuelles utilisent le même modèle à grande échelle pour traiter plusieurs résolutions d'images, entraînant un coût computationnel significatif. Pour relever ce défi, nous proposons une nouvelle architecture de réseau, appelée Réseaux de Pyramide d'Images à Paramètres Inversés (PIIP). Plus précisément, PIIP utilise des modèles pré-entraînés (ViTs ou CNNs) comme branches pour traiter des images multi-échelles, où les images de résolutions plus élevées sont traitées par des branches de réseau plus petites pour équilibrer le coût computationnel et les performances. Pour intégrer les informations de différentes échelles spatiales, nous proposons en outre un nouveau mécanisme d'interaction de caractéristiques entre branches. Pour valider PIIP, nous l'appliquons à divers modèles de perception et à un modèle de langage multimodal représentatif appelé LLaVA, et menons des expériences approfondies sur diverses tâches telles que la détection d'objets, la segmentation, la classification d'images et la compréhension multimodale. PIIP obtient des performances supérieures par rapport aux approches à une seule branche et aux approches multi-résolutions existantes avec un coût computationnel inférieur. Lorsqu'appliqué à InternViT-6B, un modèle de vision à grande échelle, PIIP peut améliorer ses performances de 1 % à 2 % en détection et segmentation avec seulement 40 % à 60 % du calcul original, atteignant enfin 60,0 AP en boîte sur MS COCO et 59,7 mIoU sur ADE20K. Pour la compréhension multimodale, notre PIIP-LLaVA obtient une précision de 73,0 % sur TextVQA et de 74,5 % sur MMBench avec seulement 2,8 millions de données d'entraînement. Notre code est disponible sur https://github.com/OpenGVLab/PIIP.
English
Image pyramids are widely adopted in top-performing methods to obtain multi-scale features for precise visual perception and understanding. However, current image pyramids use the same large-scale model to process multiple resolutions of images, leading to significant computational cost. To address this challenge, we propose a novel network architecture, called Parameter-Inverted Image Pyramid Networks (PIIP). Specifically, PIIP uses pretrained models (ViTs or CNNs) as branches to process multi-scale images, where images of higher resolutions are processed by smaller network branches to balance computational cost and performance. To integrate information from different spatial scales, we further propose a novel cross-branch feature interaction mechanism. To validate PIIP, we apply it to various perception models and a representative multimodal large language model called LLaVA, and conduct extensive experiments on various tasks such as object detection, segmentation, image classification and multimodal understanding. PIIP achieves superior performance compared to single-branch and existing multi-resolution approaches with lower computational cost. When applied to InternViT-6B, a large-scale vision foundation model, PIIP can improve its performance by 1%-2% on detection and segmentation with only 40%-60% of the original computation, finally achieving 60.0 box AP on MS COCO and 59.7 mIoU on ADE20K. For multimodal understanding, our PIIP-LLaVA achieves 73.0% accuracy on TextVQA and 74.5% on MMBench with only 2.8M training data. Our code is released at https://github.com/OpenGVLab/PIIP.

Summary

AI-Generated Summary

PDF72January 16, 2025