InternLM-XComposer-2.5: Um Modelo de Linguagem de Visão Grande Versátil Suportando Entrada e Saída Contextual Longa
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
July 3, 2024
Autores: Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Resumo
Apresentamos o InternLM-XComposer-2.5 (IXC-2.5), um modelo de linguagem de visão ampla versátil que suporta entrada e saída contextual longa. O IXC-2.5 se destaca em várias aplicações de compreensão e composição de texto-imagem, alcançando capacidades de nível GPT-4V com apenas 7B de backend LLM. Treinado com 24 mil contextos de imagem-texto intercalados, ele pode se estender perfeitamente para 96 mil contextos longos via extrapolação RoPE. Essa capacidade de contexto longo permite que o IXC-2.5 se destaque em tarefas que exigem extensos contextos de entrada e saída. Comparado à sua versão anterior 2.0, o InternLM-XComposer-2.5 apresenta três grandes atualizações em compreensão de visão e linguagem: (1) Compreensão de Ultra-Alta Resolução, (2) Compreensão de Vídeo Detalhada e (3) Diálogo Multi-Turno Multi-Imagem. Além da compreensão, o IXC-2.5 se estende a duas aplicações envolventes usando parâmetros LoRA extras para composição de texto-imagem: (1) Criação de Páginas da Web e (2) Composição de Artigos de Texto-Imagem de Alta Qualidade. O IXC-2.5 foi avaliado em 28 benchmarks, superando modelos de código aberto de última geração em 16 benchmarks. Ele também supera ou compete de perto com o GPT-4V e o Gemini Pro em 16 tarefas-chave. O InternLM-XComposer-2.5 está publicamente disponível em https://github.com/InternLM/InternLM-XComposer.
English
We present InternLM-XComposer-2.5 (IXC-2.5), a versatile large-vision
language model that supports long-contextual input and output. IXC-2.5 excels
in various text-image comprehension and composition applications, achieving
GPT-4V level capabilities with merely 7B LLM backend. Trained with 24K
interleaved image-text contexts, it can seamlessly extend to 96K long contexts
via RoPE extrapolation. This long-context capability allows IXC-2.5 to excel in
tasks requiring extensive input and output contexts. Compared to its previous
2.0 version, InternLM-XComposer-2.5 features three major upgrades in
vision-language comprehension: (1) Ultra-High Resolution Understanding, (2)
Fine-Grained Video Understanding, and (3) Multi-Turn Multi-Image Dialogue. In
addition to comprehension, IXC-2.5 extends to two compelling applications using
extra LoRA parameters for text-image composition: (1) Crafting Webpages and (2)
Composing High-Quality Text-Image Articles. IXC-2.5 has been evaluated on 28
benchmarks, outperforming existing open-source state-of-the-art models on 16
benchmarks. It also surpasses or competes closely with GPT-4V and Gemini Pro on
16 key tasks. The InternLM-XComposer-2.5 is publicly available at
https://github.com/InternLM/InternLM-XComposer.