Was ist entscheidend beim Training eines GPT4-artigen Sprachmodells mit multimodalen Eingaben?
What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?
July 5, 2023
Autoren: Yan Zeng, Hanbo Zhang, Jiani Zheng, Jiangnan Xia, Guoqiang Wei, Yang Wei, Yuchen Zhang, Tao Kong
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) wie GPT4 haben außergewöhnliche multimodale Fähigkeiten bei der Befolgung offener Anweisungen unter Verwendung von Bildern gezeigt. Die Leistung dieser Modelle hängt jedoch stark von Designentscheidungen wie Netzwerkstrukturen, Trainingsdaten und Trainingsstrategien ab, und diese Entscheidungen wurden in der Literatur nicht ausführlich diskutiert, was es schwierig macht, Fortschritte in diesem Bereich zu quantifizieren. Um dieses Problem zu lösen, präsentiert dieses Papier eine systematische und umfassende Studie, die quantitativ und qualitativ das Training solcher Modelle untersucht. Wir implementieren über 20 Varianten mit kontrollierten Einstellungen. Konkret vergleichen wir für Netzwerkstrukturen verschiedene LLM-Backbones und Modellentwürfe. Für Trainingsdaten untersuchen wir die Auswirkungen von Daten und Sampling-Strategien. Für Anweisungen erforschen wir den Einfluss diversifizierter Prompts auf die Anweisungsbefolgung der trainierten Modelle. Für Benchmarks tragen wir, soweit uns bekannt ist, den ersten umfassenden Evaluationssatz bei, der sowohl Bild- als auch Videoaufgaben durch Crowdsourcing umfasst. Basierend auf unseren Erkenntnissen präsentieren wir Lynx, das im Vergleich zu bestehenden Open-Source-GPT4-Modellen das genaueste multimodale Verständnis bietet und gleichzeitig die beste multimodale Generierungsfähigkeit beibehält.
English
Recent advancements in Large Language Models (LLMs) such as GPT4 have
displayed exceptional multi-modal capabilities in following open-ended
instructions given images. However, the performance of these models heavily
relies on design choices such as network structures, training data, and
training strategies, and these choices have not been extensively discussed in
the literature, making it difficult to quantify progress in this field. To
address this issue, this paper presents a systematic and comprehensive study,
quantitatively and qualitatively, on training such models. We implement over 20
variants with controlled settings. Concretely, for network structures, we
compare different LLM backbones and model designs. For training data, we
investigate the impact of data and sampling strategies. For instructions, we
explore the influence of diversified prompts on the instruction-following
ability of the trained models. For benchmarks, we contribute the first, to our
best knowledge, comprehensive evaluation set including both image and video
tasks through crowd-sourcing. Based on our findings, we present Lynx, which
performs the most accurate multi-modal understanding while keeping the best
multi-modal generation ability compared to existing open-sourced GPT4-style
models.