AnyMAL: Un Modelo de Lenguaje Aumentado Eficiente y Escalable para Cualquier Modalidad
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
September 27, 2023
Autores: Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
cs.AI
Resumen
Presentamos Any-Modality Augmented Language Model (AnyMAL), un modelo unificado que razona sobre señales de entrada de diversas modalidades (es decir, texto, imagen, video, audio, sensor de movimiento IMU) y genera respuestas textuales. AnyMAL hereda las potentes capacidades de razonamiento basado en texto de los modelos de lenguaje más avanzados (LLMs), incluyendo LLaMA-2 (70B), y convierte las señales específicas de cada modalidad al espacio textual conjunto mediante un módulo alineador preentrenado. Para fortalecer aún más las capacidades del LLM multimodal, ajustamos el modelo con un conjunto de instrucciones multimodales recopiladas manualmente para cubrir diversos temas y tareas más allá de simples preguntas y respuestas (QAs). Realizamos un análisis empírico exhaustivo que incluye evaluaciones tanto humanas como automáticas, y demostramos un rendimiento de vanguardia en diversas tareas multimodales.
English
We present Any-Modality Augmented Language Model (AnyMAL), a unified model
that reasons over diverse input modality signals (i.e. text, image, video,
audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the
powerful text-based reasoning abilities of the state-of-the-art LLMs including
LLaMA-2 (70B), and converts modality-specific signals to the joint textual
space through a pre-trained aligner module. To further strengthen the
multimodal LLM's capabilities, we fine-tune the model with a multimodal
instruction set manually collected to cover diverse topics and tasks beyond
simple QAs. We conduct comprehensive empirical analysis comprising both human
and automatic evaluations, and demonstrate state-of-the-art performance on
various multimodal tasks.