InternLM-XComposer-2.5: Универсальная большая языковая модель видения, поддерживающая длинный контекст ввода и выводаInternLM-XComposer-2.5: A Versatile Large Vision Language Model
Supporting Long-Contextual Input and Output
Представляем InternLM-XComposer-2.5 (IXC-2.5), универсальную модель языка большого объема, которая поддерживает ввод и вывод с длинным контекстом. IXC-2.5 отлично справляется с различными приложениями по пониманию и созданию текста и изображений, достигая уровня возможностей GPT-4V с всего лишь 7 млрд. параметров LLM. Обученная на 24 тыс. чередующихся контекстах изображений и текста, она может без проблем расшириться до 96 тыс. длинных контекстов с помощью экстраполяции RoPE. Эта возможность работы с длинным контекстом позволяет IXC-2.5 выделяться в задачах, требующих обширного ввода и вывода контекста. По сравнению с предыдущей версией 2.0, InternLM-XComposer-2.5 имеет три основных улучшения в понимании языка и зрения: (1) Понимание с ультравысоким разрешением, (2) Тонкое понимание видео и (3) Диалог с многократными поворотами и множеством изображений. Помимо понимания, IXC-2.5 расширяется до двух увлекательных приложений с использованием дополнительных параметров LoRA для создания текста и изображений: (1) Создание веб-страниц и (2) Создание статей высокого качества с текстом и изображениями. IXC-2.5 была оценена на 28 показателях, превосходя существующие модели с открытым исходным кодом на 16 показателях. Она также превосходит или тесно конкурирует с GPT-4V и Gemini Pro на 16 ключевых задачах. InternLM-XComposer-2.5 доступна публично по адресу https://github.com/InternLM/InternLM-XComposer.