InternLM-XComposer2-4KHD: Un Modelo Vision-Lenguaje de Gran Escala Innovador que Maneja Resoluciones desde 336 Píxeles hasta 4K HD

Resumen

El campo de los Modelos de Lenguaje y Visión de Gran Escala (LVLM, por sus siglas en inglés) ha experimentado avances significativos, aunque su progreso se ha visto obstaculizado por los desafíos en la comprensión de contenido visual detallado debido a la resolución limitada. Recientes esfuerzos han buscado mejorar las capacidades de comprensión de alta resolución en los LVLM, pero estos aún están limitados a aproximadamente 1500 x 1500 píxeles y restringidos a un rango de resolución relativamente estrecho. Este artículo presenta InternLM-XComposer2-4KHD, una exploración innovadora que eleva las capacidades de resolución de los LVLM hasta 4K HD (3840 x 1600) y más allá. Al mismo tiempo, considerando que la resolución ultra alta puede no ser necesaria en todos los escenarios, el modelo admite un amplio rango de resoluciones diversas, desde 336 píxeles hasta el estándar 4K, ampliando significativamente su ámbito de aplicabilidad. Específicamente, esta investigación avanza el paradigma de división de parches al introducir una novedosa extensión: resolución dinámica con configuración automática de parches. Mantiene las proporciones de aspecto de las imágenes de entrenamiento mientras varía automáticamente el número de parches y configura los diseños basándose en un Transformer de Visión (ViT) preentrenado (336 x 336), lo que resulta en una resolución de entrenamiento dinámica que va desde 336 píxeles hasta el estándar 4K. Nuestra investigación demuestra que escalar la resolución de entrenamiento hasta 4K HD conduce a mejoras consistentes en el rendimiento sin alcanzar un límite en las posibles mejoras. InternLM-XComposer2-4KHD muestra una capacidad excepcional que iguala o incluso supera a GPT-4V y Gemini Pro en 10 de los 16 puntos de referencia. La serie de modelos InternLM-XComposer2-4KHD con 7B parámetros está disponible públicamente en https://github.com/InternLM/InternLM-XComposer.

English

The Large Vision-Language Model (LVLM) field has seen significant advancements, yet its progression has been hindered by challenges in comprehending fine-grained visual content due to limited resolution. Recent efforts have aimed to enhance the high-resolution understanding capabilities of LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and constrained to a relatively narrow resolution range. This paper represents InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently, considering the ultra-high resolution may not be necessary in all scenarios, it supports a wide range of diverse resolutions from 336 pixels to 4K standard, significantly broadening its scope of applicability. Specifically, this research advances the patch division paradigm by introducing a novel extension: dynamic resolution with automatic patch configuration. It maintains the training image aspect ratios while automatically varying patch counts and configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x 336), leading to dynamic training resolution from 336 pixels to 4K standard. Our research demonstrates that scaling training resolution up to 4K HD leads to consistent performance enhancements without hitting the ceiling of potential improvements. InternLM-XComposer2-4KHD shows superb capability that matches or even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The InternLM-XComposer2-4KHD model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.

InternLM-XComposer2-4KHD: Un Modelo Vision-Lenguaje de Gran Escala Innovador que Maneja Resoluciones desde 336 Píxeles hasta 4K HD

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

Resumen

Support