LLaVA-UHD v2: un MLLM que integra una Pirámide de Características de Alta Resolución a través de un Transformador de Ventana Jerárquico
LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer
December 18, 2024
Autores: Yipeng Zhang, Yifan Liu, Zonghao Guo, Yidan Zhang, Xuesong Yang, Chi Chen, Jun Song, Bo Zheng, Yuan Yao, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun
cs.AI
Resumen
En los modelos de lenguaje multimodales de gran escala (MLLMs), los transformadores de visión (ViTs) son ampliamente empleados para la codificación visual. Sin embargo, su rendimiento en la resolución de tareas MLLM universales no es satisfactorio. Atribuimos esto a la falta de información de diversos niveles visuales, lo que dificulta la alineación con la variada granularidad semántica requerida para la generación de lenguaje. Para abordar este problema, presentamos LLaVA-UHD v2, un MLLM avanzado centrado en un transformador jerárquico de ventanas que permite capturar una diversa granularidad visual mediante la construcción e integración de una pirámide de características de alta resolución. Como proyector visión-lenguaje, el transformador Hiwin consta de dos módulos principales: (i) una pirámide de características inversa, construida mediante un proceso de aumento de características derivado de ViT que utiliza detalles de alta frecuencia de una pirámide de imágenes, y (ii) atención jerárquica de ventanas, enfocándose en un conjunto de características de muestreo clave dentro de ventanas entre escalas para condensar mapas de características multinivel. Experimentos extensos demuestran que LLaVA-UHD v2 logra un rendimiento superior sobre los MLLMs existentes en benchmarks populares. Notablemente, nuestro diseño aporta un aumento promedio del 3.7% en 14 benchmarks en comparación con el método base, por ejemplo, un 9.3% en DocVQA. Ponemos a disposición públicamente todos los datos, puntos de control del modelo y código para facilitar futuras investigaciones.
English
In multimodal large language models (MLLMs), vision transformers (ViTs) are
widely employed for visual encoding. However, their performance in solving
universal MLLM tasks is not satisfactory. We attribute it to a lack of
information from diverse visual levels, impeding alignment with the various
semantic granularity required for language generation. To address this issue,
we present LLaVA-UHD v2, an advanced MLLM centered around a Hierarchical window
transformer that enables capturing diverse visual granularity by constructing
and integrating a high-resolution feature pyramid. As a vision-language
projector, Hiwin transformer comprises two primary modules: (i) an inverse
feature pyramid, constructed by a ViT-derived feature up-sampling process
utilizing high-frequency details from an image pyramid, and (ii) hierarchical
window attention, focusing on a set of key sampling features within cross-scale
windows to condense multi-level feature maps. Extensive experiments demonstrate
that LLaVA-UHD v2 achieves superior performance over existing MLLMs on popular
benchmarks. Notably, our design brings an average boost of 3.7% across 14
benchmarks compared with the baseline method, 9.3% on DocVQA for instance. We
make all the data, model checkpoint, and code publicly available to facilitate
future research.Summary
AI-Generated Summary