InternLM-XComposer2-4KHD : Un modèle vision-langage de grande envergure pionnier Gérant des résolutions de 336 pixels à la HD 4K
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
April 9, 2024
Auteurs: Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Résumé
Le domaine des grands modèles vision-langage (Large Vision-Language Models, LVLM) a connu des avancées significatives, mais sa progression a été entravée par des difficultés à comprendre le contenu visuel fin en raison d'une résolution limitée. Des efforts récents ont visé à améliorer les capacités de compréhension en haute résolution des LVLM, mais celles-ci restent limitées à environ 1500 x 1500 pixels et contraintes à une plage de résolution relativement étroite. Ce document présente InternLM-XComposer2-4KHD, une exploration novatrice visant à élever les capacités de résolution des LVLM jusqu'à la 4K HD (3840 x 1600) et au-delà. Parallèlement, considérant que la résolution ultra-haute n'est pas nécessaire dans tous les scénarios, il prend en charge une large gamme de résolutions variées, de 336 pixels à la norme 4K, élargissant ainsi considérablement son champ d'applicabilité. Plus précisément, cette recherche fait progresser le paradigme de division en patchs en introduisant une nouvelle extension : la résolution dynamique avec configuration automatique des patchs. Elle maintient les ratios d'aspect des images d'entraînement tout en faisant varier automatiquement le nombre de patchs et en configurant les dispositions basées sur un Vision Transformer (ViT) pré-entraîné (336 x 336), conduisant à une résolution d'entraînement dynamique allant de 336 pixels à la norme 4K. Nos recherches démontrent que l'augmentation de la résolution d'entraînement jusqu'à la 4K HD entraîne des améliorations de performance constantes sans atteindre un plafond de potentiel d'amélioration. InternLM-XComposer2-4KHD montre une capacité exceptionnelle qui rivalise ou dépasse même GPT-4V et Gemini Pro dans 10 des 16 benchmarks. La série de modèles InternLM-XComposer2-4KHD avec 7 milliards de paramètres est disponible publiquement à l'adresse https://github.com/InternLM/InternLM-XComposer.
English
The Large Vision-Language Model (LVLM) field has seen significant
advancements, yet its progression has been hindered by challenges in
comprehending fine-grained visual content due to limited resolution. Recent
efforts have aimed to enhance the high-resolution understanding capabilities of
LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and
constrained to a relatively narrow resolution range. This paper represents
InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM
resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently,
considering the ultra-high resolution may not be necessary in all scenarios, it
supports a wide range of diverse resolutions from 336 pixels to 4K standard,
significantly broadening its scope of applicability. Specifically, this
research advances the patch division paradigm by introducing a novel extension:
dynamic resolution with automatic patch configuration. It maintains the
training image aspect ratios while automatically varying patch counts and
configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x
336), leading to dynamic training resolution from 336 pixels to 4K standard.
Our research demonstrates that scaling training resolution up to 4K HD leads to
consistent performance enhancements without hitting the ceiling of potential
improvements. InternLM-XComposer2-4KHD shows superb capability that matches or
even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The
InternLM-XComposer2-4KHD model series with 7B parameters are publicly available
at https://github.com/InternLM/InternLM-XComposer.Summary
AI-Generated Summary