InternLM-XComposer-2.5: Un modelo de lenguaje de visión grande versátil que admite entradas y salidas contextuales largas.InternLM-XComposer-2.5: A Versatile Large Vision Language Model
Supporting Long-Contextual Input and Output
Presentamos InternLM-XComposer-2.5 (IXC-2.5), un versátil modelo de lenguaje de gran visión que admite entradas y salidas contextuales largas. IXC-2.5 destaca en diversas aplicaciones de comprensión y composición de texto-imagen, logrando capacidades de nivel GPT-4V con solo 7B de capacidad LLM en el backend. Entrenado con 24K contextos de imagen-texto entrelazados, puede extenderse sin problemas a contextos largos de 96K mediante extrapolación de RoPE. Esta capacidad de contexto largo permite que IXC-2.5 sobresalga en tareas que requieren extensos contextos de entrada y salida. En comparación con su versión anterior 2.0, InternLM-XComposer-2.5 presenta tres importantes mejoras en comprensión de visión-lenguaje: (1) Comprensión de Ultra Alta Resolución, (2) Comprensión de Video Detallada y (3) Diálogo Multi-Vuelta Multi-Imagen. Además de la comprensión, IXC-2.5 se extiende a dos aplicaciones convincentes utilizando parámetros LoRA adicionales para la composición de texto-imagen: (1) Creación de páginas web y (2) Composición de artículos de texto-imagen de alta calidad. IXC-2.5 ha sido evaluado en 28 pruebas, superando a modelos de código abierto existentes de última generación en 16 pruebas. También supera o compite estrechamente con GPT-4V y Gemini Pro en 16 tareas clave. El InternLM-XComposer-2.5 está disponible públicamente en https://github.com/InternLM/InternLM-XComposer.