InternLM-XComposer-2.5: 長文脈の入力と出力をサポートする汎用大規模視覚言語モデル
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
July 3, 2024
著者: Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
要旨
私たちは、長文脈の入力と出力をサポートする汎用性の高い大規模視覚言語モデルであるInternLM-XComposer-2.5(IXC-2.5)を紹介します。IXC-2.5は、わずか7BのLLMバックエンドでGPT-4Vレベルの能力を達成し、さまざまなテキスト画像理解と構成アプリケーションで優れています。24Kのインタリーブされた画像テキストコンテキストでトレーニングされ、RoPE外挿を介して96Kの長文脈にシームレスに拡張できます。この長文脈能力により、IXC-2.5は広範な入力と出力コンテキストを必要とするタスクで優れた性能を発揮します。以前の2.0バージョンと比較して、InternLM-XComposer-2.5は視覚言語理解において3つの主要なアップグレードを特徴としています:(1)超高解像度理解、(2)細粒度ビデオ理解、(3)マルチターンマルチ画像対話。理解に加えて、IXC-2.5は、追加のLoRAパラメータを使用してテキスト画像構成の2つの魅力的なアプリケーションに拡張します:(1)ウェブページの作成、(2)高品質のテキスト画像記事の構成。IXC-2.5は28のベンチマークで評価され、16のベンチマークで既存のオープンソースの最先端モデルを上回りました。また、16の主要なタスクでGPT-4VとGemini Proを上回るか、それらと競合しています。InternLM-XComposer-2.5は、https://github.com/InternLM/InternLM-XComposerで公開されています。
English
We present InternLM-XComposer-2.5 (IXC-2.5), a versatile large-vision
language model that supports long-contextual input and output. IXC-2.5 excels
in various text-image comprehension and composition applications, achieving
GPT-4V level capabilities with merely 7B LLM backend. Trained with 24K
interleaved image-text contexts, it can seamlessly extend to 96K long contexts
via RoPE extrapolation. This long-context capability allows IXC-2.5 to excel in
tasks requiring extensive input and output contexts. Compared to its previous
2.0 version, InternLM-XComposer-2.5 features three major upgrades in
vision-language comprehension: (1) Ultra-High Resolution Understanding, (2)
Fine-Grained Video Understanding, and (3) Multi-Turn Multi-Image Dialogue. In
addition to comprehension, IXC-2.5 extends to two compelling applications using
extra LoRA parameters for text-image composition: (1) Crafting Webpages and (2)
Composing High-Quality Text-Image Articles. IXC-2.5 has been evaluated on 28
benchmarks, outperforming existing open-source state-of-the-art models on 16
benchmarks. It also surpasses or competes closely with GPT-4V and Gemini Pro on
16 key tasks. The InternLM-XComposer-2.5 is publicly available at
https://github.com/InternLM/InternLM-XComposer.Summary
AI-Generated Summary