ChatPaper.aiChatPaper

LLaVA-UHD v2: un MLLM que integra una Pirámide de Características de Alta Resolución a través de un Transformador de Ventana Jerárquico

LLaVA-UHD v2: an MLLM Integrating High-Resolution Feature Pyramid via Hierarchical Window Transformer

December 18, 2024
Autores: Yipeng Zhang, Yifan Liu, Zonghao Guo, Yidan Zhang, Xuesong Yang, Chi Chen, Jun Song, Bo Zheng, Yuan Yao, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun
cs.AI

Resumen

En los modelos de lenguaje multimodales de gran escala (MLLMs), los transformadores de visión (ViTs) son ampliamente empleados para la codificación visual. Sin embargo, su rendimiento en la resolución de tareas MLLM universales no es satisfactorio. Atribuimos esto a la falta de información de diversos niveles visuales, lo que dificulta la alineación con la variada granularidad semántica requerida para la generación de lenguaje. Para abordar este problema, presentamos LLaVA-UHD v2, un MLLM avanzado centrado en un transformador jerárquico de ventanas que permite capturar una diversa granularidad visual mediante la construcción e integración de una pirámide de características de alta resolución. Como proyector visión-lenguaje, el transformador Hiwin consta de dos módulos principales: (i) una pirámide de características inversa, construida mediante un proceso de aumento de características derivado de ViT que utiliza detalles de alta frecuencia de una pirámide de imágenes, y (ii) atención jerárquica de ventanas, enfocándose en un conjunto de características de muestreo clave dentro de ventanas entre escalas para condensar mapas de características multinivel. Experimentos extensos demuestran que LLaVA-UHD v2 logra un rendimiento superior sobre los MLLMs existentes en benchmarks populares. Notablemente, nuestro diseño aporta un aumento promedio del 3.7% en 14 benchmarks en comparación con el método base, por ejemplo, un 9.3% en DocVQA. Ponemos a disposición públicamente todos los datos, puntos de control del modelo y código para facilitar futuras investigaciones.
English
In multimodal large language models (MLLMs), vision transformers (ViTs) are widely employed for visual encoding. However, their performance in solving universal MLLM tasks is not satisfactory. We attribute it to a lack of information from diverse visual levels, impeding alignment with the various semantic granularity required for language generation. To address this issue, we present LLaVA-UHD v2, an advanced MLLM centered around a Hierarchical window transformer that enables capturing diverse visual granularity by constructing and integrating a high-resolution feature pyramid. As a vision-language projector, Hiwin transformer comprises two primary modules: (i) an inverse feature pyramid, constructed by a ViT-derived feature up-sampling process utilizing high-frequency details from an image pyramid, and (ii) hierarchical window attention, focusing on a set of key sampling features within cross-scale windows to condense multi-level feature maps. Extensive experiments demonstrate that LLaVA-UHD v2 achieves superior performance over existing MLLMs on popular benchmarks. Notably, our design brings an average boost of 3.7% across 14 benchmarks compared with the baseline method, 9.3% on DocVQA for instance. We make all the data, model checkpoint, and code publicly available to facilitate future research.

Summary

AI-Generated Summary

PDF182December 19, 2024