ChatPaper.aiChatPaper

InternLM-XComposer2-4KHD: Um Modelo Vision-Language Pioneiro Capaz de Processar Resoluções de 336 Pixels até 4K HD

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

April 9, 2024
Autores: Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

Resumo

O campo dos Grandes Modelos de Visão e Linguagem (LVLM, na sigla em inglês) tem testemunhado avanços significativos, mas seu progresso tem sido limitado por desafios na compreensão de conteúdo visual detalhado devido à resolução limitada. Esforços recentes têm buscado aprimorar as capacidades de entendimento em alta resolução dos LVLMs, mas eles ainda estão limitados a aproximadamente 1500 x 1500 pixels e restritos a uma faixa de resolução relativamente estreita. Este artigo apresenta o InternLM-XComposer2-4KHD, uma exploração inovadora que eleva as capacidades de resolução dos LVLMs para até 4K HD (3840 x 1600) e além. Ao mesmo tempo, considerando que a resolução ultra-alta pode não ser necessária em todos os cenários, ele suporta uma ampla gama de resoluções diversas, de 336 pixels até o padrão 4K, ampliando significativamente seu escopo de aplicabilidade. Especificamente, esta pesquisa avança o paradigma de divisão de patches ao introduzir uma nova extensão: resolução dinâmica com configuração automática de patches. Ele mantém as proporções de aspecto das imagens de treinamento enquanto varia automaticamente a contagem de patches e configura os layouts com base em um Vision Transformer (ViT) pré-treinado (336 x 336), resultando em uma resolução de treinamento dinâmica que varia de 336 pixels até o padrão 4K. Nossa pesquisa demonstra que escalar a resolução de treinamento até 4K HD leva a melhorias consistentes de desempenho sem atingir um limite de potencial de aprimoramento. O InternLM-XComposer2-4KHD exibe uma capacidade excepcional que iguala ou até supera o GPT-4V e o Gemini Pro em 10 dos 16 benchmarks. A série de modelos InternLM-XComposer2-4KHD com 7 bilhões de parâmetros está disponível publicamente em https://github.com/InternLM/InternLM-XComposer.
English
The Large Vision-Language Model (LVLM) field has seen significant advancements, yet its progression has been hindered by challenges in comprehending fine-grained visual content due to limited resolution. Recent efforts have aimed to enhance the high-resolution understanding capabilities of LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and constrained to a relatively narrow resolution range. This paper represents InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently, considering the ultra-high resolution may not be necessary in all scenarios, it supports a wide range of diverse resolutions from 336 pixels to 4K standard, significantly broadening its scope of applicability. Specifically, this research advances the patch division paradigm by introducing a novel extension: dynamic resolution with automatic patch configuration. It maintains the training image aspect ratios while automatically varying patch counts and configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x 336), leading to dynamic training resolution from 336 pixels to 4K standard. Our research demonstrates that scaling training resolution up to 4K HD leads to consistent performance enhancements without hitting the ceiling of potential improvements. InternLM-XComposer2-4KHD shows superb capability that matches or even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The InternLM-XComposer2-4KHD model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.
PDF301December 15, 2024