¿Qué tan cerca estamos de GPT-4V? Cerrando la brecha con modelos multimodales comerciales mediante suites de código abierto
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
April 25, 2024
Autores: Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao
cs.AI
Resumen
En este informe, presentamos InternVL 1.5, un modelo de lenguaje multimodal de gran escala (MLLM) de código abierto diseñado para reducir la brecha de capacidades entre los modelos comerciales propietarios y los de código abierto en comprensión multimodal. Introducimos tres mejoras sencillas: (1) Codificador Visual Potente: exploramos una estrategia de aprendizaje continuo para el modelo de visión de gran escala InternViT-6B, potenciando sus capacidades de comprensión visual y permitiendo su transferencia y reutilización en diferentes modelos de lenguaje. (2) Resolución Dinámica Alta: dividimos las imágenes en mosaicos que van de 1 a 40 de 448x448 píxeles según la relación de aspecto y la resolución de las imágenes de entrada, lo que permite manejar entradas de hasta 4K de resolución. (3) Conjunto de Datos Bilingüe de Alta Calidad: recopilamos cuidadosamente un conjunto de datos bilingüe de alta calidad que cubre escenas comunes e imágenes de documentos, anotadas con pares de preguntas y respuestas en inglés y chino, mejorando significativamente el rendimiento en tareas relacionadas con OCR y el idioma chino. Evaluamos InternVL 1.5 mediante una serie de benchmarks y estudios comparativos. En comparación con modelos tanto de código abierto como propietarios, InternVL 1.5 muestra un rendimiento competitivo, logrando resultados de vanguardia en 8 de los 18 benchmarks. El código ha sido publicado en https://github.com/OpenGVLab/InternVL.
English
In this report, we introduce InternVL 1.5, an open-source multimodal large
language model (MLLM) to bridge the capability gap between open-source and
proprietary commercial models in multimodal understanding. We introduce three
simple improvements: (1) Strong Vision Encoder: we explored a continuous
learning strategy for the large-scale vision foundation model -- InternViT-6B,
boosting its visual understanding capabilities, and making it can be
transferred and reused in different LLMs. (2) Dynamic High-Resolution: we
divide images into tiles ranging from 1 to 40 of 448times448 pixels
according to the aspect ratio and resolution of the input images, which
supports up to 4K resolution input. (3) High-Quality Bilingual Dataset: we
carefully collected a high-quality bilingual dataset that covers common scenes,
document images, and annotated them with English and Chinese question-answer
pairs, significantly enhancing performance in OCR- and Chinese-related tasks.
We evaluate InternVL 1.5 through a series of benchmarks and comparative
studies. Compared to both open-source and proprietary models, InternVL 1.5
shows competitive performance, achieving state-of-the-art results in 8 of 18
benchmarks. Code has been released at https://github.com/OpenGVLab/InternVL.Summary
AI-Generated Summary