AnyGPT: Modelo de Lenguaje Multimodal Unificado con Modelado de Secuencias Discretas
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
February 19, 2024
Autores: Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu
cs.AI
Resumen
Presentamos AnyGPT, un modelo de lenguaje multimodal de cualquier-a-cualquier tipo que utiliza representaciones discretas para el procesamiento unificado de diversas modalidades, incluyendo voz, texto, imágenes y música. AnyGPT puede entrenarse de manera estable sin necesidad de realizar modificaciones en la arquitectura actual de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) o en los paradigmas de entrenamiento. En su lugar, se basa exclusivamente en el preprocesamiento a nivel de datos, lo que facilita la integración fluida de nuevas modalidades en los LLM, de manera similar a la incorporación de nuevos idiomas. Construimos un conjunto de datos multimodal centrado en texto para el preentrenamiento de alineación multimodal. Utilizando modelos generativos, sintetizamos el primer conjunto de datos de instrucciones multimodales de cualquier-a-cualquier tipo a gran escala. Este consta de 108k muestras de conversaciones multiturno que entrelazan intrincadamente diversas modalidades, equipando así al modelo para manejar combinaciones arbitrarias de entradas y salidas multimodales. Los resultados experimentales demuestran que AnyGPT es capaz de facilitar conversaciones multimodales de cualquier-a-cualquier tipo, logrando un rendimiento comparable al de modelos especializados en todas las modalidades, lo que prueba que las representaciones discretas pueden unificar de manera efectiva y conveniente múltiples modalidades dentro de un modelo de lenguaje. Las demostraciones se pueden ver en https://junzhan2000.github.io/AnyGPT.github.io/.
English
We introduce AnyGPT, an any-to-any multimodal language model that utilizes
discrete representations for the unified processing of various modalities,
including speech, text, images, and music. AnyGPT can be trained stably without
any alterations to the current large language model (LLM) architecture or
training paradigms. Instead, it relies exclusively on data-level preprocessing,
facilitating the seamless integration of new modalities into LLMs, akin to the
incorporation of new languages. We build a multimodal text-centric dataset for
multimodal alignment pre-training. Utilizing generative models, we synthesize
the first large-scale any-to-any multimodal instruction dataset. It consists of
108k samples of multi-turn conversations that intricately interweave various
modalities, thus equipping the model to handle arbitrary combinations of
multimodal inputs and outputs. Experimental results demonstrate that AnyGPT is
capable of facilitating any-to-any multimodal conversation while achieving
performance comparable to specialized models across all modalities, proving
that discrete representations can effectively and conveniently unify multiple
modalities within a language model. Demos are shown in
https://junzhan2000.github.io/AnyGPT.github.io/