Что важно при обучении языковой модели в стиле GPT4 с мультимодальными входами?
What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?
July 5, 2023
Авторы: Yan Zeng, Hanbo Zhang, Jiani Zheng, Jiangnan Xia, Guoqiang Wei, Yang Wei, Yuchen Zhang, Tao Kong
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM), таких как GPT4, продемонстрировали исключительные мультимодальные способности в выполнении открытых инструкций, предоставленных вместе с изображениями. Однако производительность этих моделей в значительной степени зависит от таких проектных решений, как структура сети, обучающие данные и стратегии обучения, которые не были подробно рассмотрены в литературе, что затрудняет количественную оценку прогресса в этой области. Для решения этой проблемы в данной статье представлено систематическое и всестороннее исследование, количественно и качественно анализирующее процесс обучения таких моделей. Мы реализовали более 20 вариантов моделей с контролируемыми настройками. В частности, для структуры сети мы сравниваем различные архитектуры LLM и модели. Для обучающих данных исследуем влияние данных и стратегий выборки. Для инструкций изучаем влияние разнообразных промптов на способность обученных моделей следовать инструкциям. Для бенчмарков мы представляем, насколько нам известно, первый всесторонний набор для оценки, включающий задачи как с изображениями, так и с видео, созданный с помощью краудсорсинга. На основе наших результатов мы представляем Lynx, который демонстрирует наиболее точное мультимодальное понимание при сохранении наилучшей способности к мультимодальной генерации по сравнению с существующими открытыми моделями в стиле GPT4.
English
Recent advancements in Large Language Models (LLMs) such as GPT4 have
displayed exceptional multi-modal capabilities in following open-ended
instructions given images. However, the performance of these models heavily
relies on design choices such as network structures, training data, and
training strategies, and these choices have not been extensively discussed in
the literature, making it difficult to quantify progress in this field. To
address this issue, this paper presents a systematic and comprehensive study,
quantitatively and qualitatively, on training such models. We implement over 20
variants with controlled settings. Concretely, for network structures, we
compare different LLM backbones and model designs. For training data, we
investigate the impact of data and sampling strategies. For instructions, we
explore the influence of diversified prompts on the instruction-following
ability of the trained models. For benchmarks, we contribute the first, to our
best knowledge, comprehensive evaluation set including both image and video
tasks through crowd-sourcing. Based on our findings, we present Lynx, which
performs the most accurate multi-modal understanding while keeping the best
multi-modal generation ability compared to existing open-sourced GPT4-style
models.