Qu'est-ce qui compte dans l'entraînement d'un modèle de langage de style GPT4 avec des entrées multimodales ?
What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?
July 5, 2023
Auteurs: Yan Zeng, Hanbo Zhang, Jiani Zheng, Jiangnan Xia, Guoqiang Wei, Yang Wei, Yuchen Zhang, Tao Kong
cs.AI
Résumé
Les récents progrès des modèles de langage à grande échelle (LLMs) tels que GPT4 ont démontré des capacités multimodales exceptionnelles pour suivre des instructions ouvertes à partir d'images. Cependant, les performances de ces modèles dépendent fortement de choix de conception tels que les architectures de réseau, les données d'entraînement et les stratégies d'apprentissage, et ces choix n'ont pas été largement discutés dans la littérature, rendant difficile la quantification des avancées dans ce domaine. Pour résoudre ce problème, cet article présente une étude systématique et exhaustive, à la fois quantitative et qualitative, sur l'entraînement de tels modèles. Nous implémentons plus de 20 variantes dans des conditions contrôlées. Concrètement, pour les architectures de réseau, nous comparons différents backbones de LLM et conceptions de modèles. Pour les données d'entraînement, nous examinons l'impact des données et des stratégies d'échantillonnage. Pour les instructions, nous explorons l'influence de prompts diversifiés sur la capacité des modèles entraînés à suivre des instructions. Pour les benchmarks, nous contribuons, à notre connaissance, le premier ensemble d'évaluation complet incluant des tâches sur des images et des vidéos, réalisé via du crowdsourcing. Sur la base de nos résultats, nous présentons Lynx, qui offre la compréhension multimodale la plus précise tout en conservant la meilleure capacité de génération multimodale par rapport aux modèles open-source de style GPT4 existants.
English
Recent advancements in Large Language Models (LLMs) such as GPT4 have
displayed exceptional multi-modal capabilities in following open-ended
instructions given images. However, the performance of these models heavily
relies on design choices such as network structures, training data, and
training strategies, and these choices have not been extensively discussed in
the literature, making it difficult to quantify progress in this field. To
address this issue, this paper presents a systematic and comprehensive study,
quantitatively and qualitatively, on training such models. We implement over 20
variants with controlled settings. Concretely, for network structures, we
compare different LLM backbones and model designs. For training data, we
investigate the impact of data and sampling strategies. For instructions, we
explore the influence of diversified prompts on the instruction-following
ability of the trained models. For benchmarks, we contribute the first, to our
best knowledge, comprehensive evaluation set including both image and video
tasks through crowd-sourcing. Based on our findings, we present Lynx, which
performs the most accurate multi-modal understanding while keeping the best
multi-modal generation ability compared to existing open-sourced GPT4-style
models.