PUNKTE: Verbesserung Ihres Vision-Sprachmodells mit kostengünstigen Strategien
POINTS: Improving Your Vision-language Model with Affordable Strategies
September 7, 2024
Autoren: Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou
cs.AI
Zusammenfassung
In den letzten Jahren haben Vision-Sprach-Modelle bedeutende Fortschritte gemacht und sich in Aufgaben wie optischer Zeichenerkennung und geometrischer Problemlösung hervorgetan. Es bestehen jedoch mehrere kritische Probleme: 1) Eigentumsmodelle sind oft intransparent hinsichtlich ihrer Architekturen, während Open-Source-Modelle detailliertere Ablationen ihrer Trainingsstrategien benötigen. 2) Die Vorverarbeitungsdaten in Open-Source-Arbeiten sind unzureichend erforscht, wobei Datensätze empirisch hinzugefügt werden, was den Prozess umständlich macht. 3) Feinabstimmung konzentriert sich oft darauf, Datensätze hinzuzufügen, was zu abnehmenden Erträgen führt. Um diese Probleme anzugehen, schlagen wir folgende Beiträge vor: 1) Wir haben ein robustes Basismodell unter Verwendung der neuesten Fortschritte in Vision-Sprach-Modellen trainiert, indem wir effektive Verbesserungen einführten und für jede Technik umfassende Ablation und Validierung durchführten. 2) Inspiriert von aktuellen Arbeiten zu großen Sprachmodellen haben wir Vorverarbeitungsdaten mithilfe von Perplexität gefiltert und die Daten mit der niedrigsten Perplexität für das Training ausgewählt. Dieser Ansatz ermöglichte es uns, auf einem kuratierten Datensatz von 1M zu trainieren und eine wettbewerbsfähige Leistung zu erzielen. 3) Bei der Feinabstimmung der visuellen Anweisungen haben wir Modell-Soup auf verschiedenen Datensätzen verwendet, wenn das Hinzufügen weiterer Datensätze nur geringfügige Verbesserungen brachte. Diese Innovationen führten zu einem 9B-Parameter-Modell, das wettbewerbsfähig mit State-of-the-Art-Modellen abschneidet. Unsere Strategien sind effizient und leichtgewichtig, was ihre einfache Übernahme durch die Gemeinschaft ermöglicht.
English
In recent years, vision-language models have made significant strides,
excelling in tasks like optical character recognition and geometric
problem-solving. However, several critical issues remain: 1) Proprietary models
often lack transparency about their architectures, while open-source models
need more detailed ablations of their training strategies. 2) Pre-training data
in open-source works is under-explored, with datasets added empirically, making
the process cumbersome. 3) Fine-tuning often focuses on adding datasets,
leading to diminishing returns. To address these issues, we propose the
following contributions: 1) We trained a robust baseline model using the latest
advancements in vision-language models, introducing effective improvements and
conducting comprehensive ablation and validation for each technique. 2)
Inspired by recent work on large language models, we filtered pre-training data
using perplexity, selecting the lowest perplexity data for training. This
approach allowed us to train on a curated 1M dataset, achieving competitive
performance. 3) During visual instruction tuning, we used model soup on
different datasets when adding more datasets yielded marginal improvements.
These innovations resulted in a 9B parameter model that performs competitively
with state-of-the-art models. Our strategies are efficient and lightweight,
making them easily adoptable by the community.Summary
AI-Generated Summary