OneLLM: Un Marco Unificado para Alinear Todas las Modalidades con el Lenguaje
OneLLM: One Framework to Align All Modalities with Language
December 6, 2023
Autores: Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han captado una atención significativa debido a su capacidad avanzada de comprensión multimodal. Sin embargo, los trabajos existentes dependen en gran medida de codificadores específicos para cada modalidad, que suelen diferir en arquitectura y están limitados a modalidades comunes. En este artículo, presentamos OneLLM, un MLLM que alinea ocho modalidades con el lenguaje utilizando un marco unificado. Logramos esto mediante un codificador multimodal unificado y una canalización progresiva de alineación multimodal. En detalle, primero entrenamos un módulo de proyección de imágenes para conectar un codificador visual con un modelo de lenguaje (LLM). Luego, construimos un módulo de proyección universal (UPM, por sus siglas en inglés) combinando múltiples módulos de proyección de imágenes y enrutamiento dinámico. Finalmente, alineamos progresivamente más modalidades con el LLM utilizando el UPM. Para aprovechar al máximo el potencial de OneLLM en la ejecución de instrucciones, también hemos creado un conjunto de datos integral de instrucciones multimodales, que incluye 2 millones de elementos de imágenes, audio, video, nubes de puntos, mapas de profundidad/normal, IMU y actividad cerebral fMRI. OneLLM se evalúa en 25 benchmarks diversos, abarcando tareas como subtitulación multimodal, respuesta a preguntas y razonamiento, donde demuestra un rendimiento excelente. El código, los datos, el modelo y una demostración en línea están disponibles en https://github.com/csuhan/OneLLM.
English
Multimodal large language models (MLLMs) have gained significant attention
due to their strong multimodal understanding capability. However, existing
works rely heavily on modality-specific encoders, which usually differ in
architecture and are limited to common modalities. In this paper, we present
OneLLM, an MLLM that aligns eight modalities to language using a unified
framework. We achieve this through a unified multimodal encoder and a
progressive multimodal alignment pipeline. In detail, we first train an image
projection module to connect a vision encoder with LLM. Then, we build a
universal projection module (UPM) by mixing multiple image projection modules
and dynamic routing. Finally, we progressively align more modalities to LLM
with the UPM. To fully leverage the potential of OneLLM in following
instructions, we also curated a comprehensive multimodal instruction dataset,
including 2M items from image, audio, video, point cloud, depth/normal map, IMU
and fMRI brain activity. OneLLM is evaluated on 25 diverse benchmarks,
encompassing tasks such as multimodal captioning, question answering and
reasoning, where it delivers excellent performance. Code, data, model and
online demo are available at https://github.com/csuhan/OneLLM