InternLM-XComposer2-4KHD: Een baanbrekend groot visueel-taalmodel Dat resoluties van 336 pixels tot 4K HD aankan
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
April 9, 2024
Auteurs: Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
Het vakgebied van Large Vision-Language Models (LVLM) heeft aanzienlijke vooruitgang geboekt, maar de voortgang is belemmerd door uitdagingen in het begrijpen van fijnmazige visuele inhoud vanwege beperkte resolutie. Recente inspanningen zijn gericht op het verbeteren van het vermogen om hoge resoluties te begrijpen in LVLM's, maar deze blijven beperkt tot ongeveer 1500 x 1500 pixels en zijn gebonden aan een relatief smal resolutiebereik. Dit artikel presenteert InternLM-XComposer2-4KHD, een baanbrekende verkenning naar het verhogen van de resolutiecapaciteiten van LVLM's tot 4K HD (3840 x 1600) en daarboven. Tegelijkertijd, rekening houdend met het feit dat ultra-hoge resolutie niet in alle scenario's nodig is, ondersteunt het een breed scala aan diverse resoluties van 336 pixels tot 4K-standaard, waardoor het toepassingsbereik aanzienlijk wordt verbreed. Specifiek bevordert dit onderzoek het paradigma van patchverdeling door een nieuwe uitbreiding te introduceren: dynamische resolutie met automatische patchconfiguratie. Het behoudt de beeldverhoudingen van de trainingsafbeeldingen terwijl het automatisch het aantal patches varieert en lay-outs configureert op basis van een vooraf getrainde Vision Transformer (ViT) (336 x 336), wat leidt tot een dynamische trainingsresolutie van 336 pixels tot 4K-standaard. Ons onderzoek toont aan dat het opschalen van de trainingsresolutie tot 4K HD leidt tot consistente prestatieverbeteringen zonder het plafond van mogelijke verbeteringen te bereiken. InternLM-XComposer2-4KHD toont uitstekende capaciteiten die in 10 van de 16 benchmarks overeenkomen of zelfs GPT-4V en Gemini Pro overtreffen. De InternLM-XComposer2-4KHD modelreeks met 7B parameters is publiekelijk beschikbaar op https://github.com/InternLM/InternLM-XComposer.
English
The Large Vision-Language Model (LVLM) field has seen significant
advancements, yet its progression has been hindered by challenges in
comprehending fine-grained visual content due to limited resolution. Recent
efforts have aimed to enhance the high-resolution understanding capabilities of
LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and
constrained to a relatively narrow resolution range. This paper represents
InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM
resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently,
considering the ultra-high resolution may not be necessary in all scenarios, it
supports a wide range of diverse resolutions from 336 pixels to 4K standard,
significantly broadening its scope of applicability. Specifically, this
research advances the patch division paradigm by introducing a novel extension:
dynamic resolution with automatic patch configuration. It maintains the
training image aspect ratios while automatically varying patch counts and
configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x
336), leading to dynamic training resolution from 336 pixels to 4K standard.
Our research demonstrates that scaling training resolution up to 4K HD leads to
consistent performance enhancements without hitting the ceiling of potential
improvements. InternLM-XComposer2-4KHD shows superb capability that matches or
even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The
InternLM-XComposer2-4KHD model series with 7B parameters are publicly available
at https://github.com/InternLM/InternLM-XComposer.