AnyMAL : Un modèle de langage augmenté multimodal efficace et évolutif

papers.abstract

Nous présentons Any-Modality Augmented Language Model (AnyMAL), un modèle unifié capable de raisonner sur des signaux d'entrée de diverses modalités (c'est-à-dire texte, image, vidéo, audio, capteur de mouvement IMU) et de générer des réponses textuelles. AnyMAL hérite des puissantes capacités de raisonnement basées sur le texte des modèles de langage de pointe, notamment LLaMA-2 (70B), et convertit les signaux spécifiques à chaque modalité dans un espace textuel commun grâce à un module d'alignement pré-entraîné. Pour renforcer davantage les capacités du modèle de langage multimodal, nous affinons le modèle avec un ensemble d'instructions multimodales collectées manuellement pour couvrir des sujets et des tâches variés au-delà des simples questions-réponses. Nous menons une analyse empirique complète comprenant des évaluations humaines et automatiques, et démontrons des performances de pointe sur diverses tâches multimodales.

English

We present Any-Modality Augmented Language Model (AnyMAL), a unified model that reasons over diverse input modality signals (i.e. text, image, video, audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the powerful text-based reasoning abilities of the state-of-the-art LLMs including LLaMA-2 (70B), and converts modality-specific signals to the joint textual space through a pre-trained aligner module. To further strengthen the multimodal LLM's capabilities, we fine-tune the model with a multimodal instruction set manually collected to cover diverse topics and tasks beyond simple QAs. We conduct comprehensive empirical analysis comprising both human and automatic evaluations, and demonstrate state-of-the-art performance on various multimodal tasks.

AnyMAL : Un modèle de langage augmenté multimodal efficace et évolutif

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

papers.abstract

Support