PUNTOS1.5: Construcción de un Modelo de Visión-Lenguaje hacia Aplicaciones del Mundo Real
POINTS1.5: Building a Vision-Language Model towards Real World Applications
December 11, 2024
Autores: Yuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou
cs.AI
Resumen
Los modelos de visión y lenguaje han avanzado significativamente recientemente, demostrando un rendimiento superior en una variedad de tareas, como el reconocimiento óptico de caracteres y el análisis de diagramas complejos. Continuando con esta tendencia, presentamos un nuevo modelo de visión y lenguaje, POINTS1.5, diseñado para destacar en diversas aplicaciones del mundo real. POINTS1.5 es una mejora de POINTS1.0 e incorpora varias innovaciones clave: i) Reemplazamos el codificador de visión CLIP original, que tenía una resolución de imagen fija, con un codificador de visión al estilo de NaViT que admite una alta resolución dinámica nativa. Esto permite que POINTS1.5 procese imágenes de cualquier resolución sin necesidad de dividirlas en mosaicos. ii) Agregamos soporte bilingüe a POINTS1.5, mejorando significativamente su capacidad en chino. Debido a la escasez de conjuntos de datos chinos de código abierto para modelos de visión y lenguaje, recopilamos numerosas imágenes de Internet y las anotamos utilizando una combinación de métodos manuales y automáticos. iii) Proponemos un conjunto de métodos de filtrado rigurosos para conjuntos de ajuste de instrucciones visuales. Evaluamos exhaustivamente todos estos métodos de filtrado y elegimos los más efectivos para obtener el conjunto final de ajuste de instrucciones visuales. Gracias a estas innovaciones, POINTS1.5 supera significativamente a POINTS1.0 y demuestra un sólido rendimiento en una variedad de aplicaciones del mundo real. Es notable que POINTS1.5-7B se entrena con menos de 4 mil millones de tokens y ocupa el primer lugar en la tabla de clasificación de OpenCompass entre los modelos con menos de 10 mil millones de parámetros.
English
Vision-language models have made significant strides recently, demonstrating
superior performance across a range of tasks, e.g. optical character
recognition and complex diagram analysis. Building on this trend, we introduce
a new vision-language model, POINTS1.5, designed to excel in various real-world
applications. POINTS1.5 is an enhancement of POINTS1.0 and incorporates several
key innovations: i) We replace the original CLIP vision encoder, which had a
fixed image resolution, with a NaViT-style vision encoder that supports native
dynamic high resolution. This allows POINTS1.5 to process images of any
resolution without needing to split them into tiles. ii) We add bilingual
support to POINTS1.5, significantly enhancing its capability in Chinese. Due to
the scarcity of open-source Chinese datasets for vision-language models, we
collect numerous images from the Internet and annotate them using a combination
of manual and automatic methods. iii) We propose a set of rigorous filtering
methods for visual instruction tuning datasets. We comprehensively evaluate all
these filtering methods, and choose the most effective ones to obtain the final
visual instruction tuning set. Thanks to these innovations, POINTS1.5
significantly outperforms POINTS1.0 and demonstrates strong performance across
a range of real-world applications. Notably, POINTS1.5-7B is trained on fewer
than 4 billion tokens and ranks first on the OpenCompass leaderboard among
models with fewer than 10 billion parametersSummary
AI-Generated Summary