ChatPaper.aiChatPaper

¿Qué importa en el entrenamiento de un modelo de lenguaje estilo GPT4 con entradas multimodales?

What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?

July 5, 2023
Autores: Yan Zeng, Hanbo Zhang, Jiani Zheng, Jiangnan Xia, Guoqiang Wei, Yang Wei, Yuchen Zhang, Tao Kong
cs.AI

Resumen

Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como GPT4, han demostrado capacidades multimodales excepcionales para seguir instrucciones abiertas basadas en imágenes. Sin embargo, el rendimiento de estos modelos depende en gran medida de decisiones de diseño, como las estructuras de red, los datos de entrenamiento y las estrategias de entrenamiento, y estas decisiones no han sido ampliamente discutidas en la literatura, lo que dificulta cuantificar el progreso en este campo. Para abordar este problema, este artículo presenta un estudio sistemático y exhaustivo, tanto cuantitativo como cualitativo, sobre el entrenamiento de dichos modelos. Implementamos más de 20 variantes con configuraciones controladas. Concretamente, para las estructuras de red, comparamos diferentes arquitecturas principales de LLMs y diseños de modelos. Para los datos de entrenamiento, investigamos el impacto de los datos y las estrategias de muestreo. Para las instrucciones, exploramos la influencia de indicaciones diversificadas en la capacidad de seguimiento de instrucciones de los modelos entrenados. En cuanto a los puntos de referencia, contribuimos con el primer conjunto de evaluación exhaustivo, que incluye tareas tanto de imágenes como de videos, obtenido mediante crowdsourcing, según nuestro conocimiento. Basándonos en nuestros hallazgos, presentamos Lynx, que realiza la comprensión multimodal más precisa mientras mantiene la mejor capacidad de generación multimodal en comparación con los modelos de estilo GPT4 de código abierto existentes.
English
Recent advancements in Large Language Models (LLMs) such as GPT4 have displayed exceptional multi-modal capabilities in following open-ended instructions given images. However, the performance of these models heavily relies on design choices such as network structures, training data, and training strategies, and these choices have not been extensively discussed in the literature, making it difficult to quantify progress in this field. To address this issue, this paper presents a systematic and comprehensive study, quantitatively and qualitatively, on training such models. We implement over 20 variants with controlled settings. Concretely, for network structures, we compare different LLM backbones and model designs. For training data, we investigate the impact of data and sampling strategies. For instructions, we explore the influence of diversified prompts on the instruction-following ability of the trained models. For benchmarks, we contribute the first, to our best knowledge, comprehensive evaluation set including both image and video tasks through crowd-sourcing. Based on our findings, we present Lynx, which performs the most accurate multi-modal understanding while keeping the best multi-modal generation ability compared to existing open-sourced GPT4-style models.
PDF120December 15, 2024