ChatPaper.aiChatPaper

PUNTEN 1.5: Het bouwen van een Visie-Taalmodel gericht op toepassingen in de echte wereld

POINTS1.5: Building a Vision-Language Model towards Real World Applications

December 11, 2024
Auteurs: Yuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou
cs.AI

Samenvatting

Visie-taalmodellen hebben recent aanzienlijke vooruitgang geboekt, waarbij ze superieure prestaties hebben laten zien op een reeks taken, zoals optische tekenherkenning en complexe diagramanalyse. Voortbouwend op deze trend introduceren we een nieuw visie-taalmodel, POINTS1.5, dat is ontworpen om uit te blinken in verschillende real-world toepassingen. POINTS1.5 is een verbetering van POINTS1.0 en bevat verschillende belangrijke innovaties: i) We vervangen de originele CLIP visie-encoder, die een vast beeldresolutie had, door een NaViT-stijl visie-encoder die native dynamische hoge resolutie ondersteunt. Hierdoor kan POINTS1.5 afbeeldingen van elke resolutie verwerken zonder ze in tegels te hoeven splitsen. ii) We voegen tweetalige ondersteuning toe aan POINTS1.5, waardoor de capaciteit in het Chinees aanzienlijk wordt verbeterd. Vanwege het gebrek aan open-source Chinese datasets voor visie-taalmodellen verzamelen we talrijke afbeeldingen van het internet en annoteren ze met behulp van een combinatie van handmatige en automatische methoden. iii) We stellen een reeks rigoureuze filtermethoden voor visuele instructie-afstemmingsdatasets voor. We evalueren al deze filtermethoden grondig en kiezen de meest effectieve om de uiteindelijke visuele instructie-afstemmingsset te verkrijgen. Dankzij deze innovaties presteert POINTS1.5 aanzienlijk beter dan POINTS1.0 en toont het sterke prestaties op een reeks real-world toepassingen. Opmerkelijk is dat POINTS1.5-7B is getraind op minder dan 4 miljard tokens en op de OpenCompass-leiderbord op de eerste plaats staat onder modellen met minder dan 10 miljard parameters.
English
Vision-language models have made significant strides recently, demonstrating superior performance across a range of tasks, e.g. optical character recognition and complex diagram analysis. Building on this trend, we introduce a new vision-language model, POINTS1.5, designed to excel in various real-world applications. POINTS1.5 is an enhancement of POINTS1.0 and incorporates several key innovations: i) We replace the original CLIP vision encoder, which had a fixed image resolution, with a NaViT-style vision encoder that supports native dynamic high resolution. This allows POINTS1.5 to process images of any resolution without needing to split them into tiles. ii) We add bilingual support to POINTS1.5, significantly enhancing its capability in Chinese. Due to the scarcity of open-source Chinese datasets for vision-language models, we collect numerous images from the Internet and annotate them using a combination of manual and automatic methods. iii) We propose a set of rigorous filtering methods for visual instruction tuning datasets. We comprehensively evaluate all these filtering methods, and choose the most effective ones to obtain the final visual instruction tuning set. Thanks to these innovations, POINTS1.5 significantly outperforms POINTS1.0 and demonstrates strong performance across a range of real-world applications. Notably, POINTS1.5-7B is trained on fewer than 4 billion tokens and ranks first on the OpenCompass leaderboard among models with fewer than 10 billion parameters
PDF382December 12, 2024