ChatPaper.aiChatPaper

InternLM-XComposer2-4KHD: Ein wegweisendes großes Modell für die Verbindung von Vision und Sprache Behandlung von Auflösungen von 336 Pixel bis 4K HD

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

April 9, 2024
Autoren: Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

Zusammenfassung

Das Feld des Großen Vision-Sprach-Modells (LVLM) hat bedeutende Fortschritte verzeichnet, doch seine Entwicklung wurde durch Herausforderungen bei der Erfassung feingranularer visueller Inhalte aufgrund begrenzter Auflösung behindert. Jüngste Bemühungen zielten darauf ab, die Fähigkeiten zur hochauflösenden Verarbeitung von LVLMs zu verbessern, doch sie bleiben bei ungefähr 1500 x 1500 Pixeln begrenzt und auf einen relativ schmalen Auflösungsbereich beschränkt. Dieses Papier stellt InternLM-XComposer2-4KHD vor, eine wegweisende Erforschung zur Erhöhung der LVLM-Auflösungsfähigkeiten auf 4K HD (3840 x 1600) und darüber hinaus. Gleichzeitig, da die ultrahohe Auflösung nicht in allen Szenarien erforderlich sein könnte, unterstützt es eine breite Palette von verschiedenen Auflösungen von 336 Pixeln bis zum 4K-Standard, wodurch sein Anwendungsbereich erheblich erweitert wird. Speziell fördert diese Forschung das Patch-Divisions-Paradigma durch die Einführung einer neuartigen Erweiterung: dynamische Auflösung mit automatischer Patch-Konfiguration. Es bewahrt die Seitenverhältnisse des Trainingsbildes, während es automatisch die Patch-Anzahl variiert und Layouts basierend auf einem vortrainierten Vision-Transformer (ViT) (336 x 336) konfiguriert, was zu einer dynamischen Trainingsauflösung von 336 Pixeln bis zum 4K-Standard führt. Unsere Forschung zeigt, dass die Skalierung der Trainingsauflösung auf 4K HD zu konsistenten Leistungsverbesserungen führt, ohne an das Potenzial für Verbesserungen zu stoßen. InternLM-XComposer2-4KHD zeigt eine hervorragende Leistungsfähigkeit, die in 10 von 16 Benchmarks mit GPT-4V und Gemini Pro mithalten oder diese sogar übertreffen kann. Die InternLM-XComposer2-4KHD-Modellreihe mit 7B Parametern ist öffentlich unter https://github.com/InternLM/InternLM-XComposer verfügbar.
English
The Large Vision-Language Model (LVLM) field has seen significant advancements, yet its progression has been hindered by challenges in comprehending fine-grained visual content due to limited resolution. Recent efforts have aimed to enhance the high-resolution understanding capabilities of LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and constrained to a relatively narrow resolution range. This paper represents InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently, considering the ultra-high resolution may not be necessary in all scenarios, it supports a wide range of diverse resolutions from 336 pixels to 4K standard, significantly broadening its scope of applicability. Specifically, this research advances the patch division paradigm by introducing a novel extension: dynamic resolution with automatic patch configuration. It maintains the training image aspect ratios while automatically varying patch counts and configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x 336), leading to dynamic training resolution from 336 pixels to 4K standard. Our research demonstrates that scaling training resolution up to 4K HD leads to consistent performance enhancements without hitting the ceiling of potential improvements. InternLM-XComposer2-4KHD shows superb capability that matches or even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The InternLM-XComposer2-4KHD model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.

Summary

AI-Generated Summary

PDF311December 15, 2024