InternLM-XComposer-2.5: 장문 맥락 입력 및 출력을 지원하는 다목적 대형 비전-언어 모델
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
July 3, 2024
저자: Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
초록
우리는 장문 컨텍스트 입력과 출력을 지원하는 다목적 대형 비전-언어 모델인 InternLM-XComposer-2.5(IXC-2.5)를 소개합니다. IXC-2.5는 다양한 텍스트-이미지 이해 및 구성 작업에서 뛰어난 성능을 발휘하며, 단 7B 규모의 LLM 백엔드로 GPT-4V 수준의 능력을 달성했습니다. 24K의 인터리브된 이미지-텍스트 컨텍스트로 학습된 이 모델은 RoPE 외삽을 통해 96K의 장문 컨텍스트로 원활하게 확장될 수 있습니다. 이러한 장문 컨텍스트 능력은 IXC-2.5가 광범위한 입력 및 출력 컨텍스트가 필요한 작업에서 탁월한 성능을 발휘할 수 있게 합니다. 이전 2.0 버전과 비교하여, InternLM-XComposer-2.5는 비전-언어 이해 측면에서 세 가지 주요 업그레이드를 특징으로 합니다: (1) 초고해상도 이해, (2) 세밀한 비디오 이해, (3) 다중 턴 다중 이미지 대화. 이해 기능 외에도, IXC-2.5는 추가 LoRA 파라미터를 사용하여 텍스트-이미지 구성 작업에 적용되는 두 가지 매력적인 애플리케이션으로 확장되었습니다: (1) 웹페이지 제작, (2) 고품질 텍스트-이미지 기사 작성. IXC-2.5는 28개의 벤치마크에서 평가되었으며, 16개의 벤치마크에서 기존의 오픈소스 최첨단 모델들을 능가했습니다. 또한 16개의 주요 작업에서 GPT-4V 및 Gemini Pro를 능가하거나 근접한 성능을 보였습니다. InternLM-XComposer-2.5는 https://github.com/InternLM/InternLM-XComposer에서 공개적으로 제공됩니다.
English
We present InternLM-XComposer-2.5 (IXC-2.5), a versatile large-vision
language model that supports long-contextual input and output. IXC-2.5 excels
in various text-image comprehension and composition applications, achieving
GPT-4V level capabilities with merely 7B LLM backend. Trained with 24K
interleaved image-text contexts, it can seamlessly extend to 96K long contexts
via RoPE extrapolation. This long-context capability allows IXC-2.5 to excel in
tasks requiring extensive input and output contexts. Compared to its previous
2.0 version, InternLM-XComposer-2.5 features three major upgrades in
vision-language comprehension: (1) Ultra-High Resolution Understanding, (2)
Fine-Grained Video Understanding, and (3) Multi-Turn Multi-Image Dialogue. In
addition to comprehension, IXC-2.5 extends to two compelling applications using
extra LoRA parameters for text-image composition: (1) Crafting Webpages and (2)
Composing High-Quality Text-Image Articles. IXC-2.5 has been evaluated on 28
benchmarks, outperforming existing open-source state-of-the-art models on 16
benchmarks. It also surpasses or competes closely with GPT-4V and Gemini Pro on
16 key tasks. The InternLM-XComposer-2.5 is publicly available at
https://github.com/InternLM/InternLM-XComposer.Summary
AI-Generated Summary