InternLM-XComposer2-4KHD: Un Modello All'avanguardia per il Linguaggio Visivo su Grande Scala in Grado di Gestire Risoluzioni da 336 Pixel a 4K HD

Abstract

Il campo dei Large Vision-Language Model (LVLM) ha registrato progressi significativi, ma il suo avanzamento è stato ostacolato dalle difficoltà nel comprendere contenuti visivi di dettaglio a causa della risoluzione limitata. Recenti sforzi hanno mirato a migliorare le capacità di comprensione ad alta risoluzione degli LVLM, che tuttavia rimangono limitate a circa 1500 x 1500 pixel e confinate a un intervallo di risoluzione relativamente ristretto. Questo articolo presenta InternLM-XComposer2-4KHD, un'esplorazione pionieristica per elevare le capacità di risoluzione degli LVLM fino a 4K HD (3840 x 1600) e oltre. Contemporaneamente, considerando che la risoluzione ultra-alta potrebbe non essere necessaria in tutti gli scenari, il modello supporta un'ampia gamma di risoluzioni diverse, da 336 pixel fino allo standard 4K, ampliando significativamente il suo ambito di applicabilità. Nello specifico, questa ricerca avanza il paradigma della divisione in patch introducendo una nuova estensione: risoluzione dinamica con configurazione automatica delle patch. Mantiene le proporzioni delle immagini di addestramento mentre varia automaticamente il numero di patch e configura i layout basandosi su un Vision Transformer (ViT) pre-addestrato (336 x 336), portando a una risoluzione di addestramento dinamica che va da 336 pixel fino allo standard 4K. La nostra ricerca dimostra che aumentare la risoluzione di addestramento fino a 4K HD porta a miglioramenti consistenti delle prestazioni senza raggiungere un limite di potenziale miglioramento. InternLM-XComposer2-4KHD mostra una capacità eccezionale che eguaglia o addirittura supera GPT-4V e Gemini Pro in 10 dei 16 benchmark. La serie di modelli InternLM-XComposer2-4KHD con 7 miliardi di parametri è disponibile pubblicamente all'indirizzo https://github.com/InternLM/InternLM-XComposer.

English

The Large Vision-Language Model (LVLM) field has seen significant advancements, yet its progression has been hindered by challenges in comprehending fine-grained visual content due to limited resolution. Recent efforts have aimed to enhance the high-resolution understanding capabilities of LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and constrained to a relatively narrow resolution range. This paper represents InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently, considering the ultra-high resolution may not be necessary in all scenarios, it supports a wide range of diverse resolutions from 336 pixels to 4K standard, significantly broadening its scope of applicability. Specifically, this research advances the patch division paradigm by introducing a novel extension: dynamic resolution with automatic patch configuration. It maintains the training image aspect ratios while automatically varying patch counts and configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x 336), leading to dynamic training resolution from 336 pixels to 4K standard. Our research demonstrates that scaling training resolution up to 4K HD leads to consistent performance enhancements without hitting the ceiling of potential improvements. InternLM-XComposer2-4KHD shows superb capability that matches or even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The InternLM-XComposer2-4KHD model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.

InternLM-XComposer2-4KHD: Un Modello All'avanguardia per il Linguaggio Visivo su Grande Scala in Grado di Gestire Risoluzioni da 336 Pixel a 4K HD

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

Abstract

Support