Cosa è Importante nell'Addestramento di un Modello Linguistico in Stile GPT4 con Input Multimodali?

Abstract

I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) come GPT4 hanno dimostrato eccezionali capacità multimodali nel seguire istruzioni aperte fornite con immagini. Tuttavia, le prestazioni di questi modelli dipendono fortemente da scelte progettuali come le strutture di rete, i dati di addestramento e le strategie di training, e queste scelte non sono state ampiamente discusse in letteratura, rendendo difficile quantificare i progressi in questo campo. Per affrontare questo problema, questo articolo presenta uno studio sistematico e completo, sia quantitativo che qualitativo, sull'addestramento di tali modelli. Implementiamo oltre 20 varianti con impostazioni controllate. Nello specifico, per le strutture di rete, confrontiamo diversi backbone di LLM e design di modelli. Per i dati di addestramento, investigiamo l'impatto dei dati e delle strategie di campionamento. Per le istruzioni, esploriamo l'influenza di prompt diversificati sulla capacità dei modelli addestrati di seguire le istruzioni. Per i benchmark, contribuiamo con il primo, a nostra conoscenza, set di valutazione completo che include sia compiti su immagini che su video, realizzato attraverso il crowd-sourcing. Sulla base delle nostre scoperte, presentiamo Lynx, che esegue la comprensione multimodale più accurata mantenendo la migliore capacità di generazione multimodale rispetto ai modelli open-source esistenti in stile GPT4.

English

Recent advancements in Large Language Models (LLMs) such as GPT4 have displayed exceptional multi-modal capabilities in following open-ended instructions given images. However, the performance of these models heavily relies on design choices such as network structures, training data, and training strategies, and these choices have not been extensively discussed in the literature, making it difficult to quantify progress in this field. To address this issue, this paper presents a systematic and comprehensive study, quantitatively and qualitatively, on training such models. We implement over 20 variants with controlled settings. Concretely, for network structures, we compare different LLM backbones and model designs. For training data, we investigate the impact of data and sampling strategies. For instructions, we explore the influence of diversified prompts on the instruction-following ability of the trained models. For benchmarks, we contribute the first, to our best knowledge, comprehensive evaluation set including both image and video tasks through crowd-sourcing. Based on our findings, we present Lynx, which performs the most accurate multi-modal understanding while keeping the best multi-modal generation ability compared to existing open-sourced GPT4-style models.

Cosa è Importante nell'Addestramento di un Modello Linguistico in Stile GPT4 con Input Multimodali?

What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?

Abstract

Support