AnyMAL: Un Modello Linguistico Aumentato Efficiente e Scalabile per Qualsiasi Modalità

Abstract

Presentiamo Any-Modality Augmented Language Model (AnyMAL), un modello unificato che ragiona su segnali di input di diverse modalità (ad esempio testo, immagine, video, audio, sensore di movimento IMU) e genera risposte testuali. AnyMAL eredita le potenti capacità di ragionamento basato su testo dei modelli linguistici all'avanguardia, tra cui LLaMA-2 (70B), e converte i segnali specifici di ciascuna modalità in uno spazio testuale condiviso attraverso un modulo di allineamento pre-addestrato. Per rafforzare ulteriormente le capacità del modello linguistico multimodale, abbiamo effettuato un fine-tuning utilizzando un set di istruzioni multimodali raccolto manualmente per coprire argomenti e compiti diversificati, andando oltre semplici domande e risposte. Abbiamo condotto un'analisi empirica completa che include valutazioni sia umane che automatiche, dimostrando prestazioni all'avanguardia in varie attività multimodali.

English

We present Any-Modality Augmented Language Model (AnyMAL), a unified model that reasons over diverse input modality signals (i.e. text, image, video, audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the powerful text-based reasoning abilities of the state-of-the-art LLMs including LLaMA-2 (70B), and converts modality-specific signals to the joint textual space through a pre-trained aligner module. To further strengthen the multimodal LLM's capabilities, we fine-tune the model with a multimodal instruction set manually collected to cover diverse topics and tasks beyond simple QAs. We conduct comprehensive empirical analysis comprising both human and automatic evaluations, and demonstrate state-of-the-art performance on various multimodal tasks.

AnyMAL: Un Modello Linguistico Aumentato Efficiente e Scalabile per Qualsiasi Modalità

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

Abstract

Support