InternLM-XComposer-2.5: Een veelzijdig groot visueel-taalmodel dat lange contextuele invoer en uitvoer ondersteunt
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
July 3, 2024
Auteurs: Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
We presenteren InternLM-XComposer-2.5 (IXC-2.5), een veelzijdig groot-visie taalmodel dat lange-contextuele invoer en uitvoer ondersteunt. IXC-2.5 blinkt uit in diverse tekst-beeld begrips- en compositietoepassingen en bereikt GPT-4V-niveau capaciteiten met slechts een 7B LLM-backend. Getraind met 24K interleaved beeld-tekst contexten, kan het naadloos worden uitgebreid naar 96K lange contexten via RoPE-extrapolatie. Deze lange-context mogelijkheid stelt IXC-2.5 in staat om uit te blinken in taken die uitgebreide invoer- en uitvoercontexten vereisen. Vergeleken met de vorige 2.0-versie, beschikt InternLM-XComposer-2.5 over drie grote upgrades in visie-taalbegrip: (1) Ultra-Hoge Resolutie Begrip, (2) Fijnmazig Videobegrip, en (3) Multi-Turn Multi-Beeld Dialoog. Naast begrip breidt IXC-2.5 uit naar twee overtuigende toepassingen met extra LoRA-parameters voor tekst-beeldcompositie: (1) Het Maken van Webpagina's en (2) Het Samenstellen van Hoogwaardige Tekst-Beeld Artikelen. IXC-2.5 is geëvalueerd op 28 benchmarks en overtreft bestaande open-source state-of-the-art modellen op 16 benchmarks. Het overtreft of concurreert ook nauw met GPT-4V en Gemini Pro op 16 sleuteltaken. De InternLM-XComposer-2.5 is publiekelijk beschikbaar op https://github.com/InternLM/InternLM-XComposer.
English
We present InternLM-XComposer-2.5 (IXC-2.5), a versatile large-vision
language model that supports long-contextual input and output. IXC-2.5 excels
in various text-image comprehension and composition applications, achieving
GPT-4V level capabilities with merely 7B LLM backend. Trained with 24K
interleaved image-text contexts, it can seamlessly extend to 96K long contexts
via RoPE extrapolation. This long-context capability allows IXC-2.5 to excel in
tasks requiring extensive input and output contexts. Compared to its previous
2.0 version, InternLM-XComposer-2.5 features three major upgrades in
vision-language comprehension: (1) Ultra-High Resolution Understanding, (2)
Fine-Grained Video Understanding, and (3) Multi-Turn Multi-Image Dialogue. In
addition to comprehension, IXC-2.5 extends to two compelling applications using
extra LoRA parameters for text-image composition: (1) Crafting Webpages and (2)
Composing High-Quality Text-Image Articles. IXC-2.5 has been evaluated on 28
benchmarks, outperforming existing open-source state-of-the-art models on 16
benchmarks. It also surpasses or competes closely with GPT-4V and Gemini Pro on
16 key tasks. The InternLM-XComposer-2.5 is publicly available at
https://github.com/InternLM/InternLM-XComposer.