InternLM-XComposer-2.5: 장문 맥락 입력 및 출력을 지원하는 다목적 대형 비전-언어 모델InternLM-XComposer-2.5: A Versatile Large Vision Language Model
Supporting Long-Contextual Input and Output
우리는 장문 컨텍스트 입력과 출력을 지원하는 다목적 대형 비전-언어 모델인 InternLM-XComposer-2.5(IXC-2.5)를 소개합니다. IXC-2.5는 다양한 텍스트-이미지 이해 및 구성 작업에서 뛰어난 성능을 발휘하며, 단 7B 규모의 LLM 백엔드로 GPT-4V 수준의 능력을 달성했습니다. 24K의 인터리브된 이미지-텍스트 컨텍스트로 학습된 이 모델은 RoPE 외삽을 통해 96K의 장문 컨텍스트로 원활하게 확장될 수 있습니다. 이러한 장문 컨텍스트 능력은 IXC-2.5가 광범위한 입력 및 출력 컨텍스트가 필요한 작업에서 탁월한 성능을 발휘할 수 있게 합니다. 이전 2.0 버전과 비교하여, InternLM-XComposer-2.5는 비전-언어 이해 측면에서 세 가지 주요 업그레이드를 특징으로 합니다: (1) 초고해상도 이해, (2) 세밀한 비디오 이해, (3) 다중 턴 다중 이미지 대화. 이해 기능 외에도, IXC-2.5는 추가 LoRA 파라미터를 사용하여 텍스트-이미지 구성 작업에 적용되는 두 가지 매력적인 애플리케이션으로 확장되었습니다: (1) 웹페이지 제작, (2) 고품질 텍스트-이미지 기사 작성. IXC-2.5는 28개의 벤치마크에서 평가되었으며, 16개의 벤치마크에서 기존의 오픈소스 최첨단 모델들을 능가했습니다. 또한 16개의 주요 작업에서 GPT-4V 및 Gemini Pro를 능가하거나 근접한 성능을 보였습니다. InternLM-XComposer-2.5는 https://github.com/InternLM/InternLM-XComposer에서 공개적으로 제공됩니다.