InternLM-XComposer-2.5: Ein vielseitiges großes Sprachmodell für Visionen, das lange kontextuelle Eingaben und Ausgaben unterstützt.

papers.abstract

Wir präsentieren InternLM-XComposer-2.5 (IXC-2.5), ein vielseitiges großformatiges Sprachmodell, das lange kontextuelle Eingaben und Ausgaben unterstützt. IXC-2.5 zeichnet sich in verschiedenen Anwendungen zur Text-Bild-Verständnis und -Komposition aus und erreicht GPT-4V-Niveau mit lediglich 7B LLM-Backend. Trainiert mit 24K interleavierten Bild-Text-Kontexten, kann es nahtlos auf 96K lange Kontexte mittels RoPE-Extrapolation erweitert werden. Diese Fähigkeit für lange Kontexte ermöglicht es IXC-2.5, in Aufgaben zu glänzen, die umfangreiche Eingabe- und Ausgabekontexte erfordern. Im Vergleich zur vorherigen Version 2.0 weist InternLM-XComposer-2.5 drei wesentliche Upgrades in der Vision-Sprach-Verständnis auf: (1) Ultra-High Resolution Understanding, (2) Feinabstufung der Videoverständnis und (3) Mehrfach-Bild-Dialog im Multi-Turn-Format. Neben dem Verständnis erweitert sich IXC-2.5 auf zwei überzeugende Anwendungen unter Verwendung zusätzlicher LoRA-Parameter für die Text-Bild-Komposition: (1) Erstellung von Webseiten und (2) Komposition von hochwertigen Text-Bild-Artikeln. IXC-2.5 wurde an 28 Benchmarks evaluiert und übertrifft bestehende Open-Source-Modelle auf 16 Benchmarks. Es übertrifft auch GPT-4V und Gemini Pro auf 16 Schlüsselaufgaben oder konkurriert eng mit ihnen. Das InternLM-XComposer-2.5 ist öffentlich verfügbar unter https://github.com/InternLM/InternLM-XComposer.

English

We present InternLM-XComposer-2.5 (IXC-2.5), a versatile large-vision language model that supports long-contextual input and output. IXC-2.5 excels in various text-image comprehension and composition applications, achieving GPT-4V level capabilities with merely 7B LLM backend. Trained with 24K interleaved image-text contexts, it can seamlessly extend to 96K long contexts via RoPE extrapolation. This long-context capability allows IXC-2.5 to excel in tasks requiring extensive input and output contexts. Compared to its previous 2.0 version, InternLM-XComposer-2.5 features three major upgrades in vision-language comprehension: (1) Ultra-High Resolution Understanding, (2) Fine-Grained Video Understanding, and (3) Multi-Turn Multi-Image Dialogue. In addition to comprehension, IXC-2.5 extends to two compelling applications using extra LoRA parameters for text-image composition: (1) Crafting Webpages and (2) Composing High-Quality Text-Image Articles. IXC-2.5 has been evaluated on 28 benchmarks, outperforming existing open-source state-of-the-art models on 16 benchmarks. It also surpasses or competes closely with GPT-4V and Gemini Pro on 16 key tasks. The InternLM-XComposer-2.5 is publicly available at https://github.com/InternLM/InternLM-XComposer.

InternLM-XComposer-2.5: Ein vielseitiges großes Sprachmodell für Visionen, das lange kontextuelle Eingaben und Ausgaben unterstützt.

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

papers.abstract

Support