PUNKTE: Verbesserung Ihres Vision-Sprachmodells mit kostengünstigen Strategien

papers.abstract

In den letzten Jahren haben Vision-Sprach-Modelle bedeutende Fortschritte gemacht und sich in Aufgaben wie optischer Zeichenerkennung und geometrischer Problemlösung hervorgetan. Es bestehen jedoch mehrere kritische Probleme: 1) Eigentumsmodelle sind oft intransparent hinsichtlich ihrer Architekturen, während Open-Source-Modelle detailliertere Ablationen ihrer Trainingsstrategien benötigen. 2) Die Vorverarbeitungsdaten in Open-Source-Arbeiten sind unzureichend erforscht, wobei Datensätze empirisch hinzugefügt werden, was den Prozess umständlich macht. 3) Feinabstimmung konzentriert sich oft darauf, Datensätze hinzuzufügen, was zu abnehmenden Erträgen führt. Um diese Probleme anzugehen, schlagen wir folgende Beiträge vor: 1) Wir haben ein robustes Basismodell unter Verwendung der neuesten Fortschritte in Vision-Sprach-Modellen trainiert, indem wir effektive Verbesserungen einführten und für jede Technik umfassende Ablation und Validierung durchführten. 2) Inspiriert von aktuellen Arbeiten zu großen Sprachmodellen haben wir Vorverarbeitungsdaten mithilfe von Perplexität gefiltert und die Daten mit der niedrigsten Perplexität für das Training ausgewählt. Dieser Ansatz ermöglichte es uns, auf einem kuratierten Datensatz von 1M zu trainieren und eine wettbewerbsfähige Leistung zu erzielen. 3) Bei der Feinabstimmung der visuellen Anweisungen haben wir Modell-Soup auf verschiedenen Datensätzen verwendet, wenn das Hinzufügen weiterer Datensätze nur geringfügige Verbesserungen brachte. Diese Innovationen führten zu einem 9B-Parameter-Modell, das wettbewerbsfähig mit State-of-the-Art-Modellen abschneidet. Unsere Strategien sind effizient und leichtgewichtig, was ihre einfache Übernahme durch die Gemeinschaft ermöglicht.

English

In recent years, vision-language models have made significant strides, excelling in tasks like optical character recognition and geometric problem-solving. However, several critical issues remain: 1) Proprietary models often lack transparency about their architectures, while open-source models need more detailed ablations of their training strategies. 2) Pre-training data in open-source works is under-explored, with datasets added empirically, making the process cumbersome. 3) Fine-tuning often focuses on adding datasets, leading to diminishing returns. To address these issues, we propose the following contributions: 1) We trained a robust baseline model using the latest advancements in vision-language models, introducing effective improvements and conducting comprehensive ablation and validation for each technique. 2) Inspired by recent work on large language models, we filtered pre-training data using perplexity, selecting the lowest perplexity data for training. This approach allowed us to train on a curated 1M dataset, achieving competitive performance. 3) During visual instruction tuning, we used model soup on different datasets when adding more datasets yielded marginal improvements. These innovations resulted in a 9B parameter model that performs competitively with state-of-the-art models. Our strategies are efficient and lightweight, making them easily adoptable by the community.

PUNKTE: Verbesserung Ihres Vision-Sprachmodells mit kostengünstigen Strategien

POINTS: Improving Your Vision-language Model with Affordable Strategies

papers.abstract

Support