InternLM-XComposer2: Padroneggiare la composizione e la comprensione libera di testo-immagine nei modelli linguistico-visivi su larga scala

Abstract

Presentiamo InternLM-XComposer2, un modello visione-linguistica all'avanguardia che eccelle nella composizione e comprensione libera di testo e immagini. Questo modello va oltre la tradizionale comprensione visione-linguistica, dimostrandosi abile nel creare contenuti intercalati di testo e immagini a partire da input diversificati come schemi, specifiche testuali dettagliate e immagini di riferimento, consentendo una creazione di contenuti altamente personalizzabile. InternLM-XComposer2 propone un approccio Partial LoRA (PLoRA) che applica parametri LoRA aggiuntivi esclusivamente ai token delle immagini, preservando l'integrità delle conoscenze linguistiche pre-addestrate e bilanciando una comprensione visiva precisa con una composizione testuale di qualità letteraria. I risultati sperimentali dimostrano la superiorità di InternLM-XComposer2, basato su InternLM2-7B, nella produzione di contenuti multimodali di testo lungo di alta qualità e nelle sue prestazioni eccezionali nella comprensione visione-linguistica su vari benchmark, dove non solo supera significativamente i modelli multimodali esistenti, ma eguaglia o addirittura supera GPT-4V e Gemini Pro in alcune valutazioni. Ciò evidenzia la sua notevole competenza nel campo della comprensione multimodale. La serie di modelli InternLM-XComposer2 con 7 miliardi di parametri è disponibile pubblicamente all'indirizzo https://github.com/InternLM/InternLM-XComposer.

English

We introduce InternLM-XComposer2, a cutting-edge vision-language model excelling in free-form text-image composition and comprehension. This model goes beyond conventional vision-language understanding, adeptly crafting interleaved text-image content from diverse inputs like outlines, detailed textual specifications, and reference images, enabling highly customizable content creation. InternLM-XComposer2 proposes a Partial LoRA (PLoRA) approach that applies additional LoRA parameters exclusively to image tokens to preserve the integrity of pre-trained language knowledge, striking a balance between precise vision understanding and text composition with literary talent. Experimental results demonstrate the superiority of InternLM-XComposer2 based on InternLM2-7B in producing high-quality long-text multi-modal content and its exceptional vision-language understanding performance across various benchmarks, where it not only significantly outperforms existing multimodal models but also matches or even surpasses GPT-4V and Gemini Pro in certain assessments. This highlights its remarkable proficiency in the realm of multimodal understanding. The InternLM-XComposer2 model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.

InternLM-XComposer2: Padroneggiare la composizione e la comprensione libera di testo-immagine nei modelli linguistico-visivi su larga scala

InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model

Abstract

Support