AnyMAL: Un Modelo de Lenguaje Aumentado Eficiente y Escalable para Cualquier Modalidad

Resumen

Presentamos Any-Modality Augmented Language Model (AnyMAL), un modelo unificado que razona sobre señales de entrada de diversas modalidades (es decir, texto, imagen, video, audio, sensor de movimiento IMU) y genera respuestas textuales. AnyMAL hereda las potentes capacidades de razonamiento basado en texto de los modelos de lenguaje más avanzados (LLMs), incluyendo LLaMA-2 (70B), y convierte las señales específicas de cada modalidad al espacio textual conjunto mediante un módulo alineador preentrenado. Para fortalecer aún más las capacidades del LLM multimodal, ajustamos el modelo con un conjunto de instrucciones multimodales recopiladas manualmente para cubrir diversos temas y tareas más allá de simples preguntas y respuestas (QAs). Realizamos un análisis empírico exhaustivo que incluye evaluaciones tanto humanas como automáticas, y demostramos un rendimiento de vanguardia en diversas tareas multimodales.

English

We present Any-Modality Augmented Language Model (AnyMAL), a unified model that reasons over diverse input modality signals (i.e. text, image, video, audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the powerful text-based reasoning abilities of the state-of-the-art LLMs including LLaMA-2 (70B), and converts modality-specific signals to the joint textual space through a pre-trained aligner module. To further strengthen the multimodal LLM's capabilities, we fine-tune the model with a multimodal instruction set manually collected to cover diverse topics and tasks beyond simple QAs. We conduct comprehensive empirical analysis comprising both human and automatic evaluations, and demonstrate state-of-the-art performance on various multimodal tasks.

AnyMAL: Un Modelo de Lenguaje Aumentado Eficiente y Escalable para Cualquier Modalidad

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

Resumen

Support