AnyMAL : Un modèle de langage augmenté multimodal efficace et évolutif
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
September 27, 2023
papers.authors: Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
cs.AI
papers.abstract
Nous présentons Any-Modality Augmented Language Model (AnyMAL), un modèle unifié capable de raisonner sur des signaux d'entrée de diverses modalités (c'est-à-dire texte, image, vidéo, audio, capteur de mouvement IMU) et de générer des réponses textuelles. AnyMAL hérite des puissantes capacités de raisonnement basées sur le texte des modèles de langage de pointe, notamment LLaMA-2 (70B), et convertit les signaux spécifiques à chaque modalité dans un espace textuel commun grâce à un module d'alignement pré-entraîné. Pour renforcer davantage les capacités du modèle de langage multimodal, nous affinons le modèle avec un ensemble d'instructions multimodales collectées manuellement pour couvrir des sujets et des tâches variés au-delà des simples questions-réponses. Nous menons une analyse empirique complète comprenant des évaluations humaines et automatiques, et démontrons des performances de pointe sur diverses tâches multimodales.
English
We present Any-Modality Augmented Language Model (AnyMAL), a unified model
that reasons over diverse input modality signals (i.e. text, image, video,
audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the
powerful text-based reasoning abilities of the state-of-the-art LLMs including
LLaMA-2 (70B), and converts modality-specific signals to the joint textual
space through a pre-trained aligner module. To further strengthen the
multimodal LLM's capabilities, we fine-tune the model with a multimodal
instruction set manually collected to cover diverse topics and tasks beyond
simple QAs. We conduct comprehensive empirical analysis comprising both human
and automatic evaluations, and demonstrate state-of-the-art performance on
various multimodal tasks.