ChatPaper.aiChatPaper

InternLM-XComposer2: 비전-언어 대형 모델에서 자유 형식 텍스트-이미지 구성 및 이해의 숙달

InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model

January 29, 2024
저자: Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

초록

우리는 자유형 텍스트-이미지 구성 및 이해에서 탁월한 성능을 보이는 최첨단 비전-언어 모델인 InternLM-XComposer2를 소개한다. 이 모델은 기존의 비전-언어 이해를 넘어, 개요, 상세한 텍스트 명세, 참조 이미지 등 다양한 입력으로부터 텍스트와 이미지가 교차된 콘텐츠를 능숙하게 제작하여 고도로 맞춤화된 콘텐츠 생성을 가능하게 한다. InternLM-XComposer2는 Partial LoRA(PLoRA) 접근 방식을 제안하며, 이는 이미지 토큰에만 추가적인 LoRA 파라미터를 적용하여 사전 훈련된 언어 지식의 무결성을 유지함과 동시에 정확한 비전 이해와 문학적 재능을 갖춘 텍스트 구성 사이의 균형을 맞춘다. 실험 결과는 InternLM2-7B 기반의 InternLM-XComposer2가 고품질의 장문 멀티모달 콘텐츠 생산과 다양한 벤치마크에서의 탁월한 비전-언어 이해 성능을 보여주며, 기존의 멀티모달 모델을 크게 능가할 뿐만 아니라 특정 평가에서 GPT-4V 및 Gemini Pro와도 견줄 만하거나 이를 능가하는 성과를 보인다. 이는 멀티모달 이해 영역에서의 뛰어난 숙련도를 강조한다. 7B 파라미터를 가진 InternLM-XComposer2 모델 시리즈는 https://github.com/InternLM/InternLM-XComposer에서 공개되어 있다.
English
We introduce InternLM-XComposer2, a cutting-edge vision-language model excelling in free-form text-image composition and comprehension. This model goes beyond conventional vision-language understanding, adeptly crafting interleaved text-image content from diverse inputs like outlines, detailed textual specifications, and reference images, enabling highly customizable content creation. InternLM-XComposer2 proposes a Partial LoRA (PLoRA) approach that applies additional LoRA parameters exclusively to image tokens to preserve the integrity of pre-trained language knowledge, striking a balance between precise vision understanding and text composition with literary talent. Experimental results demonstrate the superiority of InternLM-XComposer2 based on InternLM2-7B in producing high-quality long-text multi-modal content and its exceptional vision-language understanding performance across various benchmarks, where it not only significantly outperforms existing multimodal models but also matches or even surpasses GPT-4V and Gemini Pro in certain assessments. This highlights its remarkable proficiency in the realm of multimodal understanding. The InternLM-XComposer2 model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.
PDF561December 15, 2024