InternLM-XComposer-2.5 : Un modèle de langage visuel polyvalent à grande échelle prenant en charge les entrées et sorties à contexte long

papers.abstract

Nous présentons InternLM-XComposer-2.5 (IXC-2.5), un modèle de langage à grande vision polyvalent qui prend en charge des entrées et sorties contextuelles longues. IXC-2.5 excelle dans diverses applications de compréhension et de composition texte-image, atteignant des capacités comparables à GPT-4V avec seulement un backend LLM de 7B. Entraîné avec 24K contextes texte-image entrelacés, il peut s'étendre de manière fluide à des contextes longs de 96K via une extrapolation RoPE. Cette capacité de contexte long permet à IXC-2.5 de briller dans des tâches nécessitant des contextes d'entrée et de sortie étendus. Par rapport à sa version précédente 2.0, InternLM-XComposer-2.5 propose trois améliorations majeures en compréhension vision-langage : (1) Compréhension à Ultra-Haute Résolution, (2) Compréhension Fine des Vidéos, et (3) Dialogue Multi-Tours Multi-Images. En plus de la compréhension, IXC-2.5 s'étend à deux applications convaincantes utilisant des paramètres LoRA supplémentaires pour la composition texte-image : (1) Création de Pages Web et (2) Composition d'Articles Texte-Image de Haute Qualité. IXC-2.5 a été évalué sur 28 benchmarks, surpassant les modèles open-source de pointe existants sur 16 benchmarks. Il dépasse ou rivalise également de près avec GPT-4V et Gemini Pro sur 16 tâches clés. InternLM-XComposer-2.5 est disponible publiquement à l'adresse https://github.com/InternLM/InternLM-XComposer.

English

We present InternLM-XComposer-2.5 (IXC-2.5), a versatile large-vision language model that supports long-contextual input and output. IXC-2.5 excels in various text-image comprehension and composition applications, achieving GPT-4V level capabilities with merely 7B LLM backend. Trained with 24K interleaved image-text contexts, it can seamlessly extend to 96K long contexts via RoPE extrapolation. This long-context capability allows IXC-2.5 to excel in tasks requiring extensive input and output contexts. Compared to its previous 2.0 version, InternLM-XComposer-2.5 features three major upgrades in vision-language comprehension: (1) Ultra-High Resolution Understanding, (2) Fine-Grained Video Understanding, and (3) Multi-Turn Multi-Image Dialogue. In addition to comprehension, IXC-2.5 extends to two compelling applications using extra LoRA parameters for text-image composition: (1) Crafting Webpages and (2) Composing High-Quality Text-Image Articles. IXC-2.5 has been evaluated on 28 benchmarks, outperforming existing open-source state-of-the-art models on 16 benchmarks. It also surpasses or competes closely with GPT-4V and Gemini Pro on 16 key tasks. The InternLM-XComposer-2.5 is publicly available at https://github.com/InternLM/InternLM-XComposer.

InternLM-XComposer-2.5 : Un modèle de langage visuel polyvalent à grande échelle prenant en charge les entrées et sorties à contexte long

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

papers.abstract

Support