ChatPaper.aiChatPaper

AMÉLIORATIONS : Améliorer votre modèle de vision-langage avec des stratégies abordables

POINTS: Improving Your Vision-language Model with Affordable Strategies

September 7, 2024
Auteurs: Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou
cs.AI

Résumé

Ces dernières années, les modèles vision-langage ont fait des progrès significatifs, excellant dans des tâches telles que la reconnaissance optique de caractères et la résolution de problèmes géométriques. Cependant, plusieurs problèmes critiques subsistent : 1) Les modèles propriétaires manquent souvent de transparence concernant leurs architectures, tandis que les modèles open-source nécessitent des ablations plus détaillées de leurs stratégies d'entraînement. 2) Les données de pré-entraînement dans les travaux open-source sont peu explorées, les ensembles de données étant ajoutés de manière empirique, rendant le processus fastidieux. 3) Le fine-tuning se concentre souvent sur l'ajout de jeux de données, entraînant des rendements décroissants. Pour résoudre ces problèmes, nous proposons les contributions suivantes : 1) Nous avons entraîné un modèle de base robuste en utilisant les dernières avancées dans les modèles vision-langage, introduisant des améliorations efficaces et menant des ablations et validations complètes pour chaque technique. 2) Inspirés par des travaux récents sur de grands modèles de langage, nous avons filtré les données de pré-entraînement en utilisant la perplexité, sélectionnant les données ayant la perplexité la plus faible pour l'entraînement. Cette approche nous a permis de nous entraîner sur un ensemble de données de 1M soigneusement sélectionné, atteignant des performances compétitives. 3) Lors du réglage des instructions visuelles, nous avons utilisé un mélange de modèles sur différents ensembles de données lorsque l'ajout de plus de jeux de données n'apportait que des améliorations marginales. Ces innovations ont abouti à un modèle de 9B paramètres qui se comporte de manière compétitive avec les modèles de pointe. Nos stratégies sont efficaces et légères, les rendant facilement adoptables par la communauté.
English
In recent years, vision-language models have made significant strides, excelling in tasks like optical character recognition and geometric problem-solving. However, several critical issues remain: 1) Proprietary models often lack transparency about their architectures, while open-source models need more detailed ablations of their training strategies. 2) Pre-training data in open-source works is under-explored, with datasets added empirically, making the process cumbersome. 3) Fine-tuning often focuses on adding datasets, leading to diminishing returns. To address these issues, we propose the following contributions: 1) We trained a robust baseline model using the latest advancements in vision-language models, introducing effective improvements and conducting comprehensive ablation and validation for each technique. 2) Inspired by recent work on large language models, we filtered pre-training data using perplexity, selecting the lowest perplexity data for training. This approach allowed us to train on a curated 1M dataset, achieving competitive performance. 3) During visual instruction tuning, we used model soup on different datasets when adding more datasets yielded marginal improvements. These innovations resulted in a 9B parameter model that performs competitively with state-of-the-art models. Our strategies are efficient and lightweight, making them easily adoptable by the community.

Summary

AI-Generated Summary

PDF256November 16, 2024