ChatPaper.aiChatPaper

InternLM-XComposer2-4KHD:336ピクセルから4K HDまでの解像度を扱う先駆的な大規模視覚言語モデル

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

April 9, 2024
著者: Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

要旨

大規模視覚言語モデル(LVLM)分野は大きな進展を遂げてきたものの、解像度の制約により細粒度の視覚内容を理解する上での課題がその進歩を妨げてきました。最近の取り組みでは、LVLMの高解像度理解能力を向上させることが目指されてきましたが、約1500×1500ピクセルに制限され、比較的狭い解像度範囲に留まっています。本論文は、LVLMの解像度能力を4K HD(3840×1600)以上に引き上げる画期的な探求であるInternLM-XComposer2-4KHDを紹介します。同時に、超高解像度が必ずしもすべてのシナリオで必要ではないことを考慮し、336ピクセルから4K標準までの多様な解像度を幅広くサポートし、適用範囲を大幅に拡大しています。具体的には、本研究はパッチ分割パラダイムを進化させ、新しい拡張機能である自動パッチ設定を伴う動的解像度を導入します。これは、事前学習済みのVision Transformer(ViT)(336×336)に基づいてパッチ数を自動的に変化させ、レイアウトを設定しながら、トレーニング画像のアスペクト比を維持し、336ピクセルから4K標準までの動的トレーニング解像度を実現します。我々の研究は、トレーニング解像度を4K HDまでスケールアップすることで、改善の上限に達することなく一貫した性能向上が得られることを実証しています。InternLM-XComposer2-4KHDは、16のベンチマークのうち10においてGPT-4VやGemini Proに匹敵し、あるいは凌駕する優れた能力を示しています。7BパラメータのInternLM-XComposer2-4KHDモデルシリーズは、https://github.com/InternLM/InternLM-XComposer で公開されています。
English
The Large Vision-Language Model (LVLM) field has seen significant advancements, yet its progression has been hindered by challenges in comprehending fine-grained visual content due to limited resolution. Recent efforts have aimed to enhance the high-resolution understanding capabilities of LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and constrained to a relatively narrow resolution range. This paper represents InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently, considering the ultra-high resolution may not be necessary in all scenarios, it supports a wide range of diverse resolutions from 336 pixels to 4K standard, significantly broadening its scope of applicability. Specifically, this research advances the patch division paradigm by introducing a novel extension: dynamic resolution with automatic patch configuration. It maintains the training image aspect ratios while automatically varying patch counts and configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x 336), leading to dynamic training resolution from 336 pixels to 4K standard. Our research demonstrates that scaling training resolution up to 4K HD leads to consistent performance enhancements without hitting the ceiling of potential improvements. InternLM-XComposer2-4KHD shows superb capability that matches or even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The InternLM-XComposer2-4KHD model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.

Summary

AI-Generated Summary

PDF311December 15, 2024