O Que Importa no Treinamento de um Modelo de Linguagem no Estilo GPT4 com Entradas Multimodais?
What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?
July 5, 2023
Autores: Yan Zeng, Hanbo Zhang, Jiani Zheng, Jiangnan Xia, Guoqiang Wei, Yang Wei, Yuchen Zhang, Tao Kong
cs.AI
Resumo
Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs), como o GPT-4, demonstraram capacidades multimodais excepcionais ao seguir instruções abertas fornecidas com imagens. No entanto, o desempenho desses modelos depende fortemente de escolhas de projeto, como estruturas de rede, dados de treinamento e estratégias de treinamento, e essas escolhas não foram amplamente discutidas na literatura, tornando difícil quantificar o progresso nesse campo. Para abordar essa questão, este artigo apresenta um estudo sistemático e abrangente, quantitativo e qualitativo, sobre o treinamento de tais modelos. Implementamos mais de 20 variantes com configurações controladas. Concretamente, para estruturas de rede, comparamos diferentes arquiteturas de LLMs e designs de modelos. Para dados de treinamento, investigamos o impacto de estratégias de dados e amostragem. Para instruções, exploramos a influência de prompts diversificados na capacidade de seguir instruções dos modelos treinados. Para benchmarks, contribuímos com o primeiro, até onde sabemos, conjunto de avaliação abrangente que inclui tarefas com imagens e vídeos, obtido por meio de crowdsourcing. Com base em nossas descobertas, apresentamos o Lynx, que realiza a compreensão multimodal mais precisa enquanto mantém a melhor capacidade de geração multimodal em comparação com os modelos de estilo GPT-4 de código aberto existentes.
English
Recent advancements in Large Language Models (LLMs) such as GPT4 have
displayed exceptional multi-modal capabilities in following open-ended
instructions given images. However, the performance of these models heavily
relies on design choices such as network structures, training data, and
training strategies, and these choices have not been extensively discussed in
the literature, making it difficult to quantify progress in this field. To
address this issue, this paper presents a systematic and comprehensive study,
quantitatively and qualitatively, on training such models. We implement over 20
variants with controlled settings. Concretely, for network structures, we
compare different LLM backbones and model designs. For training data, we
investigate the impact of data and sampling strategies. For instructions, we
explore the influence of diversified prompts on the instruction-following
ability of the trained models. For benchmarks, we contribute the first, to our
best knowledge, comprehensive evaluation set including both image and video
tasks through crowd-sourcing. Based on our findings, we present Lynx, which
performs the most accurate multi-modal understanding while keeping the best
multi-modal generation ability compared to existing open-sourced GPT4-style
models.