InternLM-XComposer2-4KHD: Un Modelo Vision-Lenguaje de Gran Escala Innovador que Maneja Resoluciones desde 336 Píxeles hasta 4K HD
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
April 9, 2024
Autores: Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
El campo de los Modelos de Lenguaje y Visión de Gran Escala (LVLM, por sus siglas en inglés) ha experimentado avances significativos, aunque su progreso se ha visto obstaculizado por los desafíos en la comprensión de contenido visual detallado debido a la resolución limitada. Recientes esfuerzos han buscado mejorar las capacidades de comprensión de alta resolución en los LVLM, pero estos aún están limitados a aproximadamente 1500 x 1500 píxeles y restringidos a un rango de resolución relativamente estrecho. Este artículo presenta InternLM-XComposer2-4KHD, una exploración innovadora que eleva las capacidades de resolución de los LVLM hasta 4K HD (3840 x 1600) y más allá. Al mismo tiempo, considerando que la resolución ultra alta puede no ser necesaria en todos los escenarios, el modelo admite un amplio rango de resoluciones diversas, desde 336 píxeles hasta el estándar 4K, ampliando significativamente su ámbito de aplicabilidad. Específicamente, esta investigación avanza el paradigma de división de parches al introducir una novedosa extensión: resolución dinámica con configuración automática de parches. Mantiene las proporciones de aspecto de las imágenes de entrenamiento mientras varía automáticamente el número de parches y configura los diseños basándose en un Transformer de Visión (ViT) preentrenado (336 x 336), lo que resulta en una resolución de entrenamiento dinámica que va desde 336 píxeles hasta el estándar 4K. Nuestra investigación demuestra que escalar la resolución de entrenamiento hasta 4K HD conduce a mejoras consistentes en el rendimiento sin alcanzar un límite en las posibles mejoras. InternLM-XComposer2-4KHD muestra una capacidad excepcional que iguala o incluso supera a GPT-4V y Gemini Pro en 10 de los 16 puntos de referencia. La serie de modelos InternLM-XComposer2-4KHD con 7B parámetros está disponible públicamente en https://github.com/InternLM/InternLM-XComposer.
English
The Large Vision-Language Model (LVLM) field has seen significant
advancements, yet its progression has been hindered by challenges in
comprehending fine-grained visual content due to limited resolution. Recent
efforts have aimed to enhance the high-resolution understanding capabilities of
LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and
constrained to a relatively narrow resolution range. This paper represents
InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM
resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently,
considering the ultra-high resolution may not be necessary in all scenarios, it
supports a wide range of diverse resolutions from 336 pixels to 4K standard,
significantly broadening its scope of applicability. Specifically, this
research advances the patch division paradigm by introducing a novel extension:
dynamic resolution with automatic patch configuration. It maintains the
training image aspect ratios while automatically varying patch counts and
configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x
336), leading to dynamic training resolution from 336 pixels to 4K standard.
Our research demonstrates that scaling training resolution up to 4K HD leads to
consistent performance enhancements without hitting the ceiling of potential
improvements. InternLM-XComposer2-4KHD shows superb capability that matches or
even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The
InternLM-XComposer2-4KHD model series with 7B parameters are publicly available
at https://github.com/InternLM/InternLM-XComposer.Summary
AI-Generated Summary