ChatPaper.aiChatPaper

InternLM-XComposer-2.5 : Un modèle de langage visuel polyvalent à grande échelle prenant en charge les entrées et sorties à contexte long

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

July 3, 2024
Auteurs: Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

Résumé

Nous présentons InternLM-XComposer-2.5 (IXC-2.5), un modèle de langage à grande vision polyvalent qui prend en charge des entrées et sorties contextuelles longues. IXC-2.5 excelle dans diverses applications de compréhension et de composition texte-image, atteignant des capacités comparables à GPT-4V avec seulement un backend LLM de 7B. Entraîné avec 24K contextes texte-image entrelacés, il peut s'étendre de manière fluide à des contextes longs de 96K via une extrapolation RoPE. Cette capacité de contexte long permet à IXC-2.5 de briller dans des tâches nécessitant des contextes d'entrée et de sortie étendus. Par rapport à sa version précédente 2.0, InternLM-XComposer-2.5 propose trois améliorations majeures en compréhension vision-langage : (1) Compréhension à Ultra-Haute Résolution, (2) Compréhension Fine des Vidéos, et (3) Dialogue Multi-Tours Multi-Images. En plus de la compréhension, IXC-2.5 s'étend à deux applications convaincantes utilisant des paramètres LoRA supplémentaires pour la composition texte-image : (1) Création de Pages Web et (2) Composition d'Articles Texte-Image de Haute Qualité. IXC-2.5 a été évalué sur 28 benchmarks, surpassant les modèles open-source de pointe existants sur 16 benchmarks. Il dépasse ou rivalise également de près avec GPT-4V et Gemini Pro sur 16 tâches clés. InternLM-XComposer-2.5 est disponible publiquement à l'adresse https://github.com/InternLM/InternLM-XComposer.
English
We present InternLM-XComposer-2.5 (IXC-2.5), a versatile large-vision language model that supports long-contextual input and output. IXC-2.5 excels in various text-image comprehension and composition applications, achieving GPT-4V level capabilities with merely 7B LLM backend. Trained with 24K interleaved image-text contexts, it can seamlessly extend to 96K long contexts via RoPE extrapolation. This long-context capability allows IXC-2.5 to excel in tasks requiring extensive input and output contexts. Compared to its previous 2.0 version, InternLM-XComposer-2.5 features three major upgrades in vision-language comprehension: (1) Ultra-High Resolution Understanding, (2) Fine-Grained Video Understanding, and (3) Multi-Turn Multi-Image Dialogue. In addition to comprehension, IXC-2.5 extends to two compelling applications using extra LoRA parameters for text-image composition: (1) Crafting Webpages and (2) Composing High-Quality Text-Image Articles. IXC-2.5 has been evaluated on 28 benchmarks, outperforming existing open-source state-of-the-art models on 16 benchmarks. It also surpasses or competes closely with GPT-4V and Gemini Pro on 16 key tasks. The InternLM-XComposer-2.5 is publicly available at https://github.com/InternLM/InternLM-XComposer.

Summary

AI-Generated Summary

PDF965November 28, 2024