ChatPaper.aiChatPaper

InternLM-XComposer-2.5: Ein vielseitiges großes Sprachmodell für Visionen, das lange kontextuelle Eingaben und Ausgaben unterstützt.

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

July 3, 2024
Autoren: Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

Zusammenfassung

Wir präsentieren InternLM-XComposer-2.5 (IXC-2.5), ein vielseitiges großformatiges Sprachmodell, das lange kontextuelle Eingaben und Ausgaben unterstützt. IXC-2.5 zeichnet sich in verschiedenen Anwendungen zur Text-Bild-Verständnis und -Komposition aus und erreicht GPT-4V-Niveau mit lediglich 7B LLM-Backend. Trainiert mit 24K interleavierten Bild-Text-Kontexten, kann es nahtlos auf 96K lange Kontexte mittels RoPE-Extrapolation erweitert werden. Diese Fähigkeit für lange Kontexte ermöglicht es IXC-2.5, in Aufgaben zu glänzen, die umfangreiche Eingabe- und Ausgabekontexte erfordern. Im Vergleich zur vorherigen Version 2.0 weist InternLM-XComposer-2.5 drei wesentliche Upgrades in der Vision-Sprach-Verständnis auf: (1) Ultra-High Resolution Understanding, (2) Feinabstufung der Videoverständnis und (3) Mehrfach-Bild-Dialog im Multi-Turn-Format. Neben dem Verständnis erweitert sich IXC-2.5 auf zwei überzeugende Anwendungen unter Verwendung zusätzlicher LoRA-Parameter für die Text-Bild-Komposition: (1) Erstellung von Webseiten und (2) Komposition von hochwertigen Text-Bild-Artikeln. IXC-2.5 wurde an 28 Benchmarks evaluiert und übertrifft bestehende Open-Source-Modelle auf 16 Benchmarks. Es übertrifft auch GPT-4V und Gemini Pro auf 16 Schlüsselaufgaben oder konkurriert eng mit ihnen. Das InternLM-XComposer-2.5 ist öffentlich verfügbar unter https://github.com/InternLM/InternLM-XComposer.
English
We present InternLM-XComposer-2.5 (IXC-2.5), a versatile large-vision language model that supports long-contextual input and output. IXC-2.5 excels in various text-image comprehension and composition applications, achieving GPT-4V level capabilities with merely 7B LLM backend. Trained with 24K interleaved image-text contexts, it can seamlessly extend to 96K long contexts via RoPE extrapolation. This long-context capability allows IXC-2.5 to excel in tasks requiring extensive input and output contexts. Compared to its previous 2.0 version, InternLM-XComposer-2.5 features three major upgrades in vision-language comprehension: (1) Ultra-High Resolution Understanding, (2) Fine-Grained Video Understanding, and (3) Multi-Turn Multi-Image Dialogue. In addition to comprehension, IXC-2.5 extends to two compelling applications using extra LoRA parameters for text-image composition: (1) Crafting Webpages and (2) Composing High-Quality Text-Image Articles. IXC-2.5 has been evaluated on 28 benchmarks, outperforming existing open-source state-of-the-art models on 16 benchmarks. It also surpasses or competes closely with GPT-4V and Gemini Pro on 16 key tasks. The InternLM-XComposer-2.5 is publicly available at https://github.com/InternLM/InternLM-XComposer.

Summary

AI-Generated Summary

PDF965November 28, 2024