Wat is Belangrijk bij het Trainen van een GPT4-Styl Taalmodel met Multimodale Inputs?
What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?
July 5, 2023
Auteurs: Yan Zeng, Hanbo Zhang, Jiani Zheng, Jiangnan Xia, Guoqiang Wei, Yang Wei, Yuchen Zhang, Tao Kong
cs.AI
Samenvatting
Recente vooruitgang in Large Language Models (LLMs) zoals GPT4 heeft uitzonderlijke multimodale capaciteiten getoond bij het volgen van open instructies op basis van afbeeldingen. De prestaties van deze modellen zijn echter sterk afhankelijk van ontwerpkeuzes zoals netwerkstructuren, trainingsdata en trainingsstrategieën, en deze keuzes zijn niet uitgebreid besproken in de literatuur, wat het moeilijk maakt om vooruitgang op dit gebied te kwantificeren. Om dit probleem aan te pakken, presenteert dit artikel een systematische en uitgebreide studie, zowel kwantitatief als kwalitatief, over het trainen van dergelijke modellen. We implementeren meer dan 20 varianten met gecontroleerde instellingen. Concreet vergelijken we voor netwerkstructuren verschillende LLM-backbones en modelontwerpen. Voor trainingsdata onderzoeken we de impact van data en samplingstrategieën. Voor instructies verkennen we de invloed van gediversifieerde prompts op de instructievolgcapaciteit van de getrainde modellen. Voor benchmarks dragen we, voor zover wij weten, de eerste uitgebreide evaluatieset bij, inclusief zowel beeld- als videotaken, via crowdsourcing. Op basis van onze bevindingen presenteren we Lynx, dat de meest nauwkeurige multimodale begripsvorming biedt terwijl het de beste multimodale generatiecapaciteit behoudt in vergelijking met bestaande open-source GPT4-stijl modellen.
English
Recent advancements in Large Language Models (LLMs) such as GPT4 have
displayed exceptional multi-modal capabilities in following open-ended
instructions given images. However, the performance of these models heavily
relies on design choices such as network structures, training data, and
training strategies, and these choices have not been extensively discussed in
the literature, making it difficult to quantify progress in this field. To
address this issue, this paper presents a systematic and comprehensive study,
quantitatively and qualitatively, on training such models. We implement over 20
variants with controlled settings. Concretely, for network structures, we
compare different LLM backbones and model designs. For training data, we
investigate the impact of data and sampling strategies. For instructions, we
explore the influence of diversified prompts on the instruction-following
ability of the trained models. For benchmarks, we contribute the first, to our
best knowledge, comprehensive evaluation set including both image and video
tasks through crowd-sourcing. Based on our findings, we present Lynx, which
performs the most accurate multi-modal understanding while keeping the best
multi-modal generation ability compared to existing open-sourced GPT4-style
models.