PONTOS 1.5: Construção de um Modelo de Visão e Linguagem para Aplicações no Mundo Real
POINTS1.5: Building a Vision-Language Model towards Real World Applications
December 11, 2024
Autores: Yuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou
cs.AI
Resumo
Os modelos de visão e linguagem deram passos significativos recentemente, demonstrando um desempenho superior em uma variedade de tarefas, como reconhecimento ótico de caracteres e análise de diagramas complexos. Seguindo essa tendência, apresentamos um novo modelo de visão e linguagem, POINTS1.5, projetado para se destacar em várias aplicações do mundo real. O POINTS1.5 é uma melhoria do POINTS1.0 e incorpora diversas inovações-chave: i) Substituímos o codificador de visão CLIP original, que tinha uma resolução de imagem fixa, por um codificador de visão no estilo NaViT que suporta alta resolução dinâmica nativa. Isso permite que o POINTS1.5 processe imagens de qualquer resolução sem a necessidade de dividi-las em blocos. ii) Adicionamos suporte bilíngue ao POINTS1.5, aprimorando significativamente sua capacidade em chinês. Devido à escassez de conjuntos de dados chineses de código aberto para modelos de visão e linguagem, coletamos inúmeras imagens da Internet e as anotamos usando uma combinação de métodos manuais e automáticos. iii) Propomos um conjunto de métodos rigorosos de filtragem para conjuntos de ajuste de instruções visuais. Avaliamos abrangentemente todos esses métodos de filtragem e escolhemos os mais eficazes para obter o conjunto final de ajuste de instruções visuais. Graças a essas inovações, o POINTS1.5 supera significativamente o POINTS1.0 e demonstra um forte desempenho em uma variedade de aplicações do mundo real. Notavelmente, o POINTS1.5-7B é treinado com menos de 4 bilhões de tokens e ocupa o primeiro lugar no quadro de líderes do OpenCompass entre os modelos com menos de 10 bilhões de parâmetros.
English
Vision-language models have made significant strides recently, demonstrating
superior performance across a range of tasks, e.g. optical character
recognition and complex diagram analysis. Building on this trend, we introduce
a new vision-language model, POINTS1.5, designed to excel in various real-world
applications. POINTS1.5 is an enhancement of POINTS1.0 and incorporates several
key innovations: i) We replace the original CLIP vision encoder, which had a
fixed image resolution, with a NaViT-style vision encoder that supports native
dynamic high resolution. This allows POINTS1.5 to process images of any
resolution without needing to split them into tiles. ii) We add bilingual
support to POINTS1.5, significantly enhancing its capability in Chinese. Due to
the scarcity of open-source Chinese datasets for vision-language models, we
collect numerous images from the Internet and annotate them using a combination
of manual and automatic methods. iii) We propose a set of rigorous filtering
methods for visual instruction tuning datasets. We comprehensively evaluate all
these filtering methods, and choose the most effective ones to obtain the final
visual instruction tuning set. Thanks to these innovations, POINTS1.5
significantly outperforms POINTS1.0 and demonstrates strong performance across
a range of real-world applications. Notably, POINTS1.5-7B is trained on fewer
than 4 billion tokens and ranks first on the OpenCompass leaderboard among
models with fewer than 10 billion parametersSummary
AI-Generated Summary