InternLM-XComposer-2.5 : Un modèle de langage visuel polyvalent à grande échelle
prenant en charge les entrées et sorties à contexte longInternLM-XComposer-2.5: A Versatile Large Vision Language Model
Supporting Long-Contextual Input and Output
Nous présentons InternLM-XComposer-2.5 (IXC-2.5), un modèle de langage à grande vision polyvalent qui prend en charge des entrées et sorties contextuelles longues. IXC-2.5 excelle dans diverses applications de compréhension et de composition texte-image, atteignant des capacités comparables à GPT-4V avec seulement un backend LLM de 7B. Entraîné avec 24K contextes texte-image entrelacés, il peut s'étendre de manière fluide à des contextes longs de 96K via une extrapolation RoPE. Cette capacité de contexte long permet à IXC-2.5 de briller dans des tâches nécessitant des contextes d'entrée et de sortie étendus. Par rapport à sa version précédente 2.0, InternLM-XComposer-2.5 propose trois améliorations majeures en compréhension vision-langage : (1) Compréhension à Ultra-Haute Résolution, (2) Compréhension Fine des Vidéos, et (3) Dialogue Multi-Tours Multi-Images. En plus de la compréhension, IXC-2.5 s'étend à deux applications convaincantes utilisant des paramètres LoRA supplémentaires pour la composition texte-image : (1) Création de Pages Web et (2) Composition d'Articles Texte-Image de Haute Qualité. IXC-2.5 a été évalué sur 28 benchmarks, surpassant les modèles open-source de pointe existants sur 16 benchmarks. Il dépasse ou rivalise également de près avec GPT-4V et Gemini Pro sur 16 tâches clés. InternLM-XComposer-2.5 est disponible publiquement à l'adresse https://github.com/InternLM/InternLM-XComposer.