AnyMAL: Ein effizientes und skalierbares Any-Modality Augmented Language Model
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
September 27, 2023
papers.authors: Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
cs.AI
papers.abstract
Wir präsentieren Any-Modality Augmented Language Model (AnyMAL), ein einheitliches Modell, das über diverse Eingabemodalitätssignale (d.h. Text, Bild, Video, Audio, IMU-Bewegungssensor) schlussfolgert und textuelle Antworten generiert. AnyMAL erbt die leistungsstarken textbasierten Schlussfolgerungsfähigkeiten der modernsten Large Language Models (LLMs), einschließlich LLaMA-2 (70B), und wandelt modalitätsspezifische Signale durch ein vortrainiertes Aligner-Modul in den gemeinsamen Textraum um. Um die Fähigkeiten des multimodalen LLMs weiter zu stärken, feintunen wir das Modell mit einem multimodalen Instruktionsdatensatz, der manuell gesammelt wurde, um diverse Themen und Aufgaben über einfache Frage-Antwort-Szenarien hinaus abzudecken. Wir führen eine umfassende empirische Analyse durch, die sowohl menschliche als auch automatische Bewertungen umfasst, und demonstrieren state-of-the-art Leistungen in verschiedenen multimodalen Aufgaben.
English
We present Any-Modality Augmented Language Model (AnyMAL), a unified model
that reasons over diverse input modality signals (i.e. text, image, video,
audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the
powerful text-based reasoning abilities of the state-of-the-art LLMs including
LLaMA-2 (70B), and converts modality-specific signals to the joint textual
space through a pre-trained aligner module. To further strengthen the
multimodal LLM's capabilities, we fine-tune the model with a multimodal
instruction set manually collected to cover diverse topics and tasks beyond
simple QAs. We conduct comprehensive empirical analysis comprising both human
and automatic evaluations, and demonstrate state-of-the-art performance on
various multimodal tasks.