ChatPaper.aiChatPaper

PUNTEN: Het Verbeteren van Je Visie-taalmodel met Betaalbare Strategieën

POINTS: Improving Your Vision-language Model with Affordable Strategies

September 7, 2024
Auteurs: Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou
cs.AI

Samenvatting

In de afgelopen jaren hebben visie-taalmodellen aanzienlijke vooruitgang geboekt, uitblinkend in taken zoals optische tekenherkenning en geometrische probleemoplossing. Er blijven echter verschillende kritieke kwesties bestaan: 1) Eigen modellen missen vaak transparantie over hun architecturen, terwijl open-source modellen meer gedetailleerde ablaties van hun trainingsstrategieën nodig hebben. 2) Vooraf trainingsdata in open-source werken is onderbelicht, met datasets die empirisch worden toegevoegd, wat het proces omslachtig maakt. 3) Fine-tuning richt zich vaak op het toevoegen van datasets, wat leidt tot afnemende meeropbrengsten. Om deze kwesties aan te pakken, stellen we de volgende bijdragen voor: 1) We hebben een robuust basismodel getraind met behulp van de nieuwste ontwikkelingen in visie-taalmodellen, waarbij we effectieve verbeteringen hebben geïntroduceerd en uitgebreide ablatie en validatie hebben uitgevoerd voor elke techniek. 2) Geïnspireerd door recent werk over grote taalmodellen hebben we vooraf trainingsdata gefilterd met behulp van perplexiteit, waarbij we de data met de laagste perplexiteit hebben geselecteerd voor training. Deze aanpak stelde ons in staat om te trainen op een samengestelde dataset van 1M, met het behalen van concurrerende prestaties. 3) Tijdens het fijnafstemmen van visuele instructies hebben we model soup gebruikt op verschillende datasets, waarbij het toevoegen van meer datasets marginale verbeteringen opleverde. Deze innovaties resulteerden in een model met 9B parameters dat concurrerend presteert met state-of-the-art modellen. Onze strategieën zijn efficiënt en lichtgewicht, waardoor ze gemakkelijk kunnen worden overgenomen door de gemeenschap.
English
In recent years, vision-language models have made significant strides, excelling in tasks like optical character recognition and geometric problem-solving. However, several critical issues remain: 1) Proprietary models often lack transparency about their architectures, while open-source models need more detailed ablations of their training strategies. 2) Pre-training data in open-source works is under-explored, with datasets added empirically, making the process cumbersome. 3) Fine-tuning often focuses on adding datasets, leading to diminishing returns. To address these issues, we propose the following contributions: 1) We trained a robust baseline model using the latest advancements in vision-language models, introducing effective improvements and conducting comprehensive ablation and validation for each technique. 2) Inspired by recent work on large language models, we filtered pre-training data using perplexity, selecting the lowest perplexity data for training. This approach allowed us to train on a curated 1M dataset, achieving competitive performance. 3) During visual instruction tuning, we used model soup on different datasets when adding more datasets yielded marginal improvements. These innovations resulted in a 9B parameter model that performs competitively with state-of-the-art models. Our strategies are efficient and lightweight, making them easily adoptable by the community.

Summary

AI-Generated Summary

PDF256November 16, 2024