ChatPaper.aiChatPaper

InternLM-XComposer2-4KHD: Первоначальная крупная модель видео-языка Обработка разрешений от 336 пикселей до 4K HD

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

April 9, 2024
Авторы: Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

Аннотация

Область больших моделей видео-языка (LVLM) продемонстрировала значительные достижения, однако ее развитие затруднено из-за проблем в понимании мелкозернистого визуального контента из-за ограниченного разрешения. Недавние усилия направлены на улучшение возможностей понимания высокого разрешения у LVLM, однако они остаются ограниченными примерно 1500 x 1500 пикселей и ограничены относительно узким диапазоном разрешения. В данной статье представлен InternLM-XComposer2-4KHD, революционное исследование по повышению возможностей разрешения LVLM до 4K HD (3840 x 1600) и выше. Одновременно, учитывая, что сверхвысокое разрешение может быть необязательным во всех сценариях, он поддерживает широкий диапазон разнообразных разрешений от 336 пикселей до стандарта 4K, значительно расширяя область его применимости. Конкретно, данное исследование продвигает парадигму разделения патчей, представляя новое расширение: динамическое разрешение с автоматической конфигурацией патчей. Оно сохраняет соотношения сторон обучающего изображения, автоматически изменяя количество патчей и конфигурируя компоновки на основе предварительно обученного Визионного Трансформера (ViT) (336 x 336), что приводит к динамическому разрешению обучения от 336 пикселей до стандарта 4K. Наши исследования показывают, что увеличение разрешения обучения до 4K HD приводит к последовательному улучшению производительности без достижения потолка потенциальных улучшений. Модель InternLM-XComposer2-4KHD демонстрирует великолепные возможности, которые соответствуют или даже превосходят GPT-4V и Gemini Pro в 10 из 16 бенчмарков. Серии моделей InternLM-XComposer2-4KHD с 7 миллиардами параметров доступны публично на https://github.com/InternLM/InternLM-XComposer.
English
The Large Vision-Language Model (LVLM) field has seen significant advancements, yet its progression has been hindered by challenges in comprehending fine-grained visual content due to limited resolution. Recent efforts have aimed to enhance the high-resolution understanding capabilities of LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and constrained to a relatively narrow resolution range. This paper represents InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently, considering the ultra-high resolution may not be necessary in all scenarios, it supports a wide range of diverse resolutions from 336 pixels to 4K standard, significantly broadening its scope of applicability. Specifically, this research advances the patch division paradigm by introducing a novel extension: dynamic resolution with automatic patch configuration. It maintains the training image aspect ratios while automatically varying patch counts and configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x 336), leading to dynamic training resolution from 336 pixels to 4K standard. Our research demonstrates that scaling training resolution up to 4K HD leads to consistent performance enhancements without hitting the ceiling of potential improvements. InternLM-XComposer2-4KHD shows superb capability that matches or even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The InternLM-XComposer2-4KHD model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.

Summary

AI-Generated Summary

PDF311December 15, 2024