InternLM-XComposer2-4KHD: 336픽셀부터 4K HD까지 해상도를 다루는 선구적인 대형 비전-언어 모델
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
April 9, 2024
저자: Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
초록
대형 시각-언어 모델(LVLM) 분야는 상당한 발전을 이루었지만, 제한된 해상도로 인해 세밀한 시각적 내용을 이해하는 데 어려움을 겪으며 진전이 더뎌졌습니다. 최근 연구들은 LVLM의 고해상도 이해 능력을 향상시키려는 시도를 해왔지만, 여전히 약 1500 x 1500 픽셀 수준에 머물며 비교적 좁은 해상도 범위에 제한되어 있습니다. 본 논문은 LVLM의 해상도 능력을 4K HD(3840 x 1600) 이상으로 끌어올리는 획기적인 탐구인 InternLM-XComposer2-4KHD를 소개합니다. 동시에, 초고해상도가 모든 시나리오에서 필요하지 않을 수 있다는 점을 고려하여, 336픽셀부터 4K 표준까지 다양한 해상도를 지원함으로써 적용 범위를 크게 확장했습니다. 구체적으로, 이 연구는 패치 분할 패러다임을 발전시켜 새로운 확장 기능인 자동 패치 구성을 통한 동적 해상도를 도입했습니다. 이는 훈련 이미지의 종횡비를 유지하면서 사전 훈련된 Vision Transformer(ViT)(336 x 336)를 기반으로 패치 수를 자동으로 조정하고 레이아웃을 구성하여, 336픽셀부터 4K 표준까지 동적 훈련 해상도를 가능하게 합니다. 우리의 연구는 훈련 해상도를 4K HD까지 확장함으로써 잠재적 개선의 한계에 부딪히지 않고도 일관된 성능 향상을 이끌어냄을 보여줍니다. InternLM-XComposer2-4KHD는 16개 벤치마크 중 10개에서 GPT-4V와 Gemini Pro를 능가하거나 동등한 우수한 능력을 보여줍니다. 7B 파라미터를 가진 InternLM-XComposer2-4KHD 모델 시리즈는 https://github.com/InternLM/InternLM-XComposer에서 공개되어 있습니다.
English
The Large Vision-Language Model (LVLM) field has seen significant
advancements, yet its progression has been hindered by challenges in
comprehending fine-grained visual content due to limited resolution. Recent
efforts have aimed to enhance the high-resolution understanding capabilities of
LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and
constrained to a relatively narrow resolution range. This paper represents
InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM
resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently,
considering the ultra-high resolution may not be necessary in all scenarios, it
supports a wide range of diverse resolutions from 336 pixels to 4K standard,
significantly broadening its scope of applicability. Specifically, this
research advances the patch division paradigm by introducing a novel extension:
dynamic resolution with automatic patch configuration. It maintains the
training image aspect ratios while automatically varying patch counts and
configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x
336), leading to dynamic training resolution from 336 pixels to 4K standard.
Our research demonstrates that scaling training resolution up to 4K HD leads to
consistent performance enhancements without hitting the ceiling of potential
improvements. InternLM-XComposer2-4KHD shows superb capability that matches or
even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The
InternLM-XComposer2-4KHD model series with 7B parameters are publicly available
at https://github.com/InternLM/InternLM-XComposer.Summary
AI-Generated Summary