AnyMAL: Un Modello Linguistico Aumentato Efficiente e Scalabile per Qualsiasi Modalità
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
September 27, 2023
Autori: Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
cs.AI
Abstract
Presentiamo Any-Modality Augmented Language Model (AnyMAL), un modello unificato che ragiona su segnali di input di diverse modalità (ad esempio testo, immagine, video, audio, sensore di movimento IMU) e genera risposte testuali. AnyMAL eredita le potenti capacità di ragionamento basato su testo dei modelli linguistici all'avanguardia, tra cui LLaMA-2 (70B), e converte i segnali specifici di ciascuna modalità in uno spazio testuale condiviso attraverso un modulo di allineamento pre-addestrato. Per rafforzare ulteriormente le capacità del modello linguistico multimodale, abbiamo effettuato un fine-tuning utilizzando un set di istruzioni multimodali raccolto manualmente per coprire argomenti e compiti diversificati, andando oltre semplici domande e risposte. Abbiamo condotto un'analisi empirica completa che include valutazioni sia umane che automatiche, dimostrando prestazioni all'avanguardia in varie attività multimodali.
English
We present Any-Modality Augmented Language Model (AnyMAL), a unified model
that reasons over diverse input modality signals (i.e. text, image, video,
audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the
powerful text-based reasoning abilities of the state-of-the-art LLMs including
LLaMA-2 (70B), and converts modality-specific signals to the joint textual
space through a pre-trained aligner module. To further strengthen the
multimodal LLM's capabilities, we fine-tune the model with a multimodal
instruction set manually collected to cover diverse topics and tasks beyond
simple QAs. We conduct comprehensive empirical analysis comprising both human
and automatic evaluations, and demonstrate state-of-the-art performance on
various multimodal tasks.