ChatPaper.aiChatPaper

InternLM-XComposer-2.5: Un modelo de lenguaje de visión grande versátil que admite entradas y salidas contextuales largas.

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

July 3, 2024
Autores: Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

Resumen

Presentamos InternLM-XComposer-2.5 (IXC-2.5), un versátil modelo de lenguaje de gran visión que admite entradas y salidas contextuales largas. IXC-2.5 destaca en diversas aplicaciones de comprensión y composición de texto-imagen, logrando capacidades de nivel GPT-4V con solo 7B de capacidad LLM en el backend. Entrenado con 24K contextos de imagen-texto entrelazados, puede extenderse sin problemas a contextos largos de 96K mediante extrapolación de RoPE. Esta capacidad de contexto largo permite que IXC-2.5 sobresalga en tareas que requieren extensos contextos de entrada y salida. En comparación con su versión anterior 2.0, InternLM-XComposer-2.5 presenta tres importantes mejoras en comprensión de visión-lenguaje: (1) Comprensión de Ultra Alta Resolución, (2) Comprensión de Video Detallada y (3) Diálogo Multi-Vuelta Multi-Imagen. Además de la comprensión, IXC-2.5 se extiende a dos aplicaciones convincentes utilizando parámetros LoRA adicionales para la composición de texto-imagen: (1) Creación de páginas web y (2) Composición de artículos de texto-imagen de alta calidad. IXC-2.5 ha sido evaluado en 28 pruebas, superando a modelos de código abierto existentes de última generación en 16 pruebas. También supera o compite estrechamente con GPT-4V y Gemini Pro en 16 tareas clave. El InternLM-XComposer-2.5 está disponible públicamente en https://github.com/InternLM/InternLM-XComposer.
English
We present InternLM-XComposer-2.5 (IXC-2.5), a versatile large-vision language model that supports long-contextual input and output. IXC-2.5 excels in various text-image comprehension and composition applications, achieving GPT-4V level capabilities with merely 7B LLM backend. Trained with 24K interleaved image-text contexts, it can seamlessly extend to 96K long contexts via RoPE extrapolation. This long-context capability allows IXC-2.5 to excel in tasks requiring extensive input and output contexts. Compared to its previous 2.0 version, InternLM-XComposer-2.5 features three major upgrades in vision-language comprehension: (1) Ultra-High Resolution Understanding, (2) Fine-Grained Video Understanding, and (3) Multi-Turn Multi-Image Dialogue. In addition to comprehension, IXC-2.5 extends to two compelling applications using extra LoRA parameters for text-image composition: (1) Crafting Webpages and (2) Composing High-Quality Text-Image Articles. IXC-2.5 has been evaluated on 28 benchmarks, outperforming existing open-source state-of-the-art models on 16 benchmarks. It also surpasses or competes closely with GPT-4V and Gemini Pro on 16 key tasks. The InternLM-XComposer-2.5 is publicly available at https://github.com/InternLM/InternLM-XComposer.

Summary

AI-Generated Summary

PDF965November 28, 2024