ChatPaper.aiChatPaper

PUNTI: Migliorare il Tuo Modello di Visione-linguaggio con Strategie Accessibili

POINTS: Improving Your Vision-language Model with Affordable Strategies

September 7, 2024
Autori: Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou
cs.AI

Abstract

Negli ultimi anni, i modelli visione-linguaggio hanno compiuto progressi significativi, eccellendo in compiti come il riconoscimento ottico dei caratteri e la risoluzione dei problemi geometrici. Tuttavia, rimangono diverse questioni critiche: 1) I modelli proprietari spesso mancano di trasparenza riguardo alle loro architetture, mentre i modelli open-source necessitano di ablati più dettagliati delle loro strategie di addestramento. 2) I dati di pre-addestramento nei lavori open-source sono poco esplorati, con set di dati aggiunti in modo empirico, rendendo il processo laborioso. 3) Il fine-tuning si concentra spesso sull'aggiunta di set di dati, portando a rendimenti decrescenti. Per affrontare queste questioni, proponiamo i seguenti contributi: 1) Abbiamo addestrato un modello basico robusto utilizzando gli ultimi avanzamenti nei modelli visione-linguaggio, introducendo miglioramenti efficaci e conducendo ablati e validazioni approfonditi per ciascuna tecnica. 2) Ispirandoci al recente lavoro sui grandi modelli linguistici, abbiamo filtrato i dati di pre-addestramento utilizzando la perplessità, selezionando i dati con la perplessità più bassa per l'addestramento. Questo approccio ci ha permesso di addestrare su un set di dati curato di 1M, ottenendo prestazioni competitive. 3) Durante il tuning dell'istruzione visiva, abbiamo utilizzato un "model soup" su diversi set di dati quando l'aggiunta di ulteriori set di dati ha portato a miglioramenti marginali. Queste innovazioni hanno portato a un modello con 9 miliardi di parametri che si comporta in modo competitivo rispetto ai modelli all'avanguardia. Le nostre strategie sono efficienti e leggere, rendendole facilmente adottabili dalla comunità.
English
In recent years, vision-language models have made significant strides, excelling in tasks like optical character recognition and geometric problem-solving. However, several critical issues remain: 1) Proprietary models often lack transparency about their architectures, while open-source models need more detailed ablations of their training strategies. 2) Pre-training data in open-source works is under-explored, with datasets added empirically, making the process cumbersome. 3) Fine-tuning often focuses on adding datasets, leading to diminishing returns. To address these issues, we propose the following contributions: 1) We trained a robust baseline model using the latest advancements in vision-language models, introducing effective improvements and conducting comprehensive ablation and validation for each technique. 2) Inspired by recent work on large language models, we filtered pre-training data using perplexity, selecting the lowest perplexity data for training. This approach allowed us to train on a curated 1M dataset, achieving competitive performance. 3) During visual instruction tuning, we used model soup on different datasets when adding more datasets yielded marginal improvements. These innovations resulted in a 9B parameter model that performs competitively with state-of-the-art models. Our strategies are efficient and lightweight, making them easily adoptable by the community.

Summary

AI-Generated Summary

PDF256November 16, 2024