ПОДХОДЫ: Улучшение вашей модели языка с помощью доступных стратегий
POINTS: Improving Your Vision-language Model with Affordable Strategies
September 7, 2024
Авторы: Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou
cs.AI
Аннотация
В последние годы модели видео-языка сделали значительные успехи, превосходя в задачах, таких как оптическое распознавание символов и геометрическое решение задач. Однако остаются несколько критических проблем: 1) Проприетарные модели часто не обладают прозрачностью в отношении своих архитектур, в то время как модели с открытым исходным кодом требуют более детального анализа их стратегий обучения. 2) Предварительные данные в открытых работах плохо исследованы, с наборами данных, добавляемыми эмпирически, что делает процесс громоздким. 3) Тонкая настройка часто сосредотачивается на добавлении наборов данных, что приводит к уменьшению выгоды. Для решения этих проблем мы предлагаем следующие вклады: 1) Мы обучили надежную базовую модель, используя последние достижения в моделях видео-языка, внедряя эффективные улучшения и проводя полный анализ и валидацию для каждой техники. 2) Вдохновленные недавними работами над крупными языковыми моделями, мы отфильтровали предварительные данные, используя перплексию, выбирая данные с наименьшей перплексией для обучения. Этот подход позволил нам обучаться на отобранном наборе данных в 1M, достигая конкурентоспособных результатов. 3) Во время настройки визуальных инструкций мы использовали модельный суп на различных наборах данных, когда добавление дополнительных наборов данных приводило к незначительным улучшениям. Эти инновации привели к созданию модели с 9B параметрами, которая демонстрирует конкурентоспособную производительность по сравнению с передовыми моделями. Наши стратегии эффективны и легки, что делает их легко применимыми для сообщества.
English
In recent years, vision-language models have made significant strides,
excelling in tasks like optical character recognition and geometric
problem-solving. However, several critical issues remain: 1) Proprietary models
often lack transparency about their architectures, while open-source models
need more detailed ablations of their training strategies. 2) Pre-training data
in open-source works is under-explored, with datasets added empirically, making
the process cumbersome. 3) Fine-tuning often focuses on adding datasets,
leading to diminishing returns. To address these issues, we propose the
following contributions: 1) We trained a robust baseline model using the latest
advancements in vision-language models, introducing effective improvements and
conducting comprehensive ablation and validation for each technique. 2)
Inspired by recent work on large language models, we filtered pre-training data
using perplexity, selecting the lowest perplexity data for training. This
approach allowed us to train on a curated 1M dataset, achieving competitive
performance. 3) During visual instruction tuning, we used model soup on
different datasets when adding more datasets yielded marginal improvements.
These innovations resulted in a 9B parameter model that performs competitively
with state-of-the-art models. Our strategies are efficient and lightweight,
making them easily adoptable by the community.Summary
AI-Generated Summary