InternLM-XComposer-2.5: 長文脈の入力と出力をサポートする汎用大規模視覚言語モデルInternLM-XComposer-2.5: A Versatile Large Vision Language Model
Supporting Long-Contextual Input and Output
私たちは、長文脈の入力と出力をサポートする汎用性の高い大規模視覚言語モデルであるInternLM-XComposer-2.5(IXC-2.5)を紹介します。IXC-2.5は、わずか7BのLLMバックエンドでGPT-4Vレベルの能力を達成し、さまざまなテキスト画像理解と構成アプリケーションで優れています。24Kのインタリーブされた画像テキストコンテキストでトレーニングされ、RoPE外挿を介して96Kの長文脈にシームレスに拡張できます。この長文脈能力により、IXC-2.5は広範な入力と出力コンテキストを必要とするタスクで優れた性能を発揮します。以前の2.0バージョンと比較して、InternLM-XComposer-2.5は視覚言語理解において3つの主要なアップグレードを特徴としています:(1)超高解像度理解、(2)細粒度ビデオ理解、(3)マルチターンマルチ画像対話。理解に加えて、IXC-2.5は、追加のLoRAパラメータを使用してテキスト画像構成の2つの魅力的なアプリケーションに拡張します:(1)ウェブページの作成、(2)高品質のテキスト画像記事の構成。IXC-2.5は28のベンチマークで評価され、16のベンチマークで既存のオープンソースの最先端モデルを上回りました。また、16の主要なタスクでGPT-4VとGemini Proを上回るか、それらと競合しています。InternLM-XComposer-2.5は、https://github.com/InternLM/InternLM-XComposerで公開されています。