PUNKTE 1.5: Aufbau eines Vision-Sprach-Modells für reale Anwendungen
POINTS1.5: Building a Vision-Language Model towards Real World Applications
December 11, 2024
Autoren: Yuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou
cs.AI
Zusammenfassung
Vision-Language-Modelle haben in letzter Zeit erhebliche Fortschritte gemacht und zeigen eine überlegene Leistung bei einer Vielzahl von Aufgaben, z.B. optische Zeichenerkennung und komplexe Diagrammanalyse. Aufbauend auf diesem Trend stellen wir ein neues Vision-Language-Modell, POINTS1.5, vor, das darauf ausgelegt ist, in verschiedenen realen Anwendungen hervorragende Leistungen zu erbringen. POINTS1.5 ist eine Weiterentwicklung von POINTS1.0 und integriert mehrere Schlüsselinnovationen: i) Wir ersetzen den ursprünglichen CLIP-Vision-Encoder, der eine feste Bildauflösung hatte, durch einen NaViT-artigen Vision-Encoder, der native dynamische hohe Auflösung unterstützt. Dies ermöglicht es POINTS1.5, Bilder jeder Auflösung zu verarbeiten, ohne sie in Kacheln aufteilen zu müssen. ii) Wir fügen POINTS1.5 zweisprachige Unterstützung hinzu, was seine Fähigkeiten im Chinesischen erheblich verbessert. Aufgrund der Knappheit von Open-Source-Chinesisch-Datensätzen für Vision-Language-Modelle sammeln wir zahlreiche Bilder aus dem Internet und annotieren sie mit einer Kombination aus manuellen und automatischen Methoden. iii) Wir schlagen eine Reihe von rigorosen Filtermethoden für die Anpassung von visuellen Anweisungsdatensätzen vor. Wir evaluieren umfassend all diese Filtermethoden und wählen die effektivsten aus, um den endgültigen Satz für die Anpassung von visuellen Anweisungen zu erhalten. Dank dieser Innovationen übertrifft POINTS1.5 deutlich POINTS1.0 und zeigt eine starke Leistung in einer Vielzahl von realen Anwendungen. Bemerkenswert ist, dass POINTS1.5-7B mit weniger als 4 Milliarden Tokens trainiert wird und auf der OpenCompass-Rangliste unter Modellen mit weniger als 10 Milliarden Parametern den ersten Platz belegt.
English
Vision-language models have made significant strides recently, demonstrating
superior performance across a range of tasks, e.g. optical character
recognition and complex diagram analysis. Building on this trend, we introduce
a new vision-language model, POINTS1.5, designed to excel in various real-world
applications. POINTS1.5 is an enhancement of POINTS1.0 and incorporates several
key innovations: i) We replace the original CLIP vision encoder, which had a
fixed image resolution, with a NaViT-style vision encoder that supports native
dynamic high resolution. This allows POINTS1.5 to process images of any
resolution without needing to split them into tiles. ii) We add bilingual
support to POINTS1.5, significantly enhancing its capability in Chinese. Due to
the scarcity of open-source Chinese datasets for vision-language models, we
collect numerous images from the Internet and annotate them using a combination
of manual and automatic methods. iii) We propose a set of rigorous filtering
methods for visual instruction tuning datasets. We comprehensively evaluate all
these filtering methods, and choose the most effective ones to obtain the final
visual instruction tuning set. Thanks to these innovations, POINTS1.5
significantly outperforms POINTS1.0 and demonstrates strong performance across
a range of real-world applications. Notably, POINTS1.5-7B is trained on fewer
than 4 billion tokens and ranks first on the OpenCompass leaderboard among
models with fewer than 10 billion parametersSummary
AI-Generated Summary