InternLM-XComposer-2.5: Un Modello Linguistico Visivo di Grande Versatilità Con Supporto per Input e Output a Lungo Contesto
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
July 3, 2024
Autori: Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Abstract
Presentiamo InternLM-XComposer-2.5 (IXC-2.5), un modello linguistico di grandi dimensioni versatile che supporta input e output a contesto lungo. IXC-2.5 eccelle in varie applicazioni di comprensione e composizione testo-immagine, raggiungendo capacità a livello di GPT-4V con un backend LLM di soli 7B. Addestrato con 24K contesti intervallati di immagini e testo, può estendersi senza soluzione di continuità a contesti lunghi 96K tramite estrapolazione RoPE. Questa capacità di contesto lungo consente a IXC-2.5 di eccellere in compiti che richiedono contesti di input e output estesi. Rispetto alla precedente versione 2.0, InternLM-XComposer-2.5 presenta tre importanti aggiornamenti nella comprensione visione-linguaggio: (1) Comprensione a Risoluzione Ultra-Alta, (2) Comprensione Fine-Grained dei Video e (3) Dialogo Multi-Turn con Immagini Multiple. Oltre alla comprensione, IXC-2.5 si estende a due applicazioni convincenti utilizzando parametri LoRA aggiuntivi per la composizione testo-immagine: (1) Creazione di Pagine Web e (2) Composizione di Articoli Testo-Immagine di Alta Qualità. IXC-2.5 è stato valutato su 28 benchmark, superando i modelli open-source all'avanguardia esistenti su 16 benchmark. Supera o compete strettamente con GPT-4V e Gemini Pro su 16 compiti chiave. InternLM-XComposer-2.5 è disponibile pubblicamente all'indirizzo https://github.com/InternLM/InternLM-XComposer.
English
We present InternLM-XComposer-2.5 (IXC-2.5), a versatile large-vision
language model that supports long-contextual input and output. IXC-2.5 excels
in various text-image comprehension and composition applications, achieving
GPT-4V level capabilities with merely 7B LLM backend. Trained with 24K
interleaved image-text contexts, it can seamlessly extend to 96K long contexts
via RoPE extrapolation. This long-context capability allows IXC-2.5 to excel in
tasks requiring extensive input and output contexts. Compared to its previous
2.0 version, InternLM-XComposer-2.5 features three major upgrades in
vision-language comprehension: (1) Ultra-High Resolution Understanding, (2)
Fine-Grained Video Understanding, and (3) Multi-Turn Multi-Image Dialogue. In
addition to comprehension, IXC-2.5 extends to two compelling applications using
extra LoRA parameters for text-image composition: (1) Crafting Webpages and (2)
Composing High-Quality Text-Image Articles. IXC-2.5 has been evaluated on 28
benchmarks, outperforming existing open-source state-of-the-art models on 16
benchmarks. It also surpasses or competes closely with GPT-4V and Gemini Pro on
16 key tasks. The InternLM-XComposer-2.5 is publicly available at
https://github.com/InternLM/InternLM-XComposer.