Redes de Pirámide de Imágenes Invertidas de Parámetros para la Percepción Visual y la Comprensión Multimodal
Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding
January 14, 2025
Autores: Zhaokai Wang, Xizhou Zhu, Xue Yang, Gen Luo, Hao Li, Changyao Tian, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai
cs.AI
Resumen
Las pirámides de imágenes son ampliamente adoptadas en los métodos de alto rendimiento para obtener características multi-escala para una percepción visual y comprensión precisa. Sin embargo, las pirámides de imágenes actuales utilizan el mismo modelo a gran escala para procesar múltiples resoluciones de imágenes, lo que conlleva un costo computacional significativo. Para abordar este desafío, proponemos una arquitectura de red novedosa, llamada Redes de Pirámide de Imágenes con Parámetros Invertidos (PIIP). Específicamente, PIIP utiliza modelos pre-entrenados (ViTs o CNNs) como ramas para procesar imágenes multi-escala, donde las imágenes de resoluciones más altas son procesadas por ramas de red más pequeñas para equilibrar el costo computacional y el rendimiento. Para integrar información de diferentes escalas espaciales, proponemos además un mecanismo novedoso de interacción de características entre ramas. Para validar PIIP, lo aplicamos a varios modelos de percepción y a un modelo de lenguaje multimodal representativo llamado LLaVA, y realizamos experimentos extensos en diversas tareas como detección de objetos, segmentación, clasificación de imágenes y comprensión multimodal. PIIP logra un rendimiento superior en comparación con enfoques de una sola rama y enfoques multi-resolución existentes con un menor costo computacional. Al aplicarlo a InternViT-6B, un modelo de visión a gran escala, PIIP puede mejorar su rendimiento en detección y segmentación en un 1%-2% con solo el 40%-60% de la computación original, logrando finalmente 60.0 box AP en MS COCO y 59.7 mIoU en ADE20K. Para la comprensión multimodal, nuestro PIIP-LLaVA logra un 73.0% de precisión en TextVQA y un 74.5% en MMBench con solo 2.8M datos de entrenamiento. Nuestro código está disponible en https://github.com/OpenGVLab/PIIP.
English
Image pyramids are widely adopted in top-performing methods to obtain
multi-scale features for precise visual perception and understanding. However,
current image pyramids use the same large-scale model to process multiple
resolutions of images, leading to significant computational cost. To address
this challenge, we propose a novel network architecture, called
Parameter-Inverted Image Pyramid Networks (PIIP). Specifically, PIIP uses
pretrained models (ViTs or CNNs) as branches to process multi-scale images,
where images of higher resolutions are processed by smaller network branches to
balance computational cost and performance. To integrate information from
different spatial scales, we further propose a novel cross-branch feature
interaction mechanism. To validate PIIP, we apply it to various perception
models and a representative multimodal large language model called LLaVA, and
conduct extensive experiments on various tasks such as object detection,
segmentation, image classification and multimodal understanding. PIIP achieves
superior performance compared to single-branch and existing multi-resolution
approaches with lower computational cost. When applied to InternViT-6B, a
large-scale vision foundation model, PIIP can improve its performance by 1%-2%
on detection and segmentation with only 40%-60% of the original computation,
finally achieving 60.0 box AP on MS COCO and 59.7 mIoU on ADE20K. For
multimodal understanding, our PIIP-LLaVA achieves 73.0% accuracy on TextVQA and
74.5% on MMBench with only 2.8M training data. Our code is released at
https://github.com/OpenGVLab/PIIP.Summary
AI-Generated Summary