ChatPaper.aiChatPaper

AnyMAL: Ein effizientes und skalierbares Any-Modality Augmented Language Model

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

September 27, 2023
papers.authors: Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
cs.AI

papers.abstract

Wir präsentieren Any-Modality Augmented Language Model (AnyMAL), ein einheitliches Modell, das über diverse Eingabemodalitätssignale (d.h. Text, Bild, Video, Audio, IMU-Bewegungssensor) schlussfolgert und textuelle Antworten generiert. AnyMAL erbt die leistungsstarken textbasierten Schlussfolgerungsfähigkeiten der modernsten Large Language Models (LLMs), einschließlich LLaMA-2 (70B), und wandelt modalitätsspezifische Signale durch ein vortrainiertes Aligner-Modul in den gemeinsamen Textraum um. Um die Fähigkeiten des multimodalen LLMs weiter zu stärken, feintunen wir das Modell mit einem multimodalen Instruktionsdatensatz, der manuell gesammelt wurde, um diverse Themen und Aufgaben über einfache Frage-Antwort-Szenarien hinaus abzudecken. Wir führen eine umfassende empirische Analyse durch, die sowohl menschliche als auch automatische Bewertungen umfasst, und demonstrieren state-of-the-art Leistungen in verschiedenen multimodalen Aufgaben.
English
We present Any-Modality Augmented Language Model (AnyMAL), a unified model that reasons over diverse input modality signals (i.e. text, image, video, audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the powerful text-based reasoning abilities of the state-of-the-art LLMs including LLaMA-2 (70B), and converts modality-specific signals to the joint textual space through a pre-trained aligner module. To further strengthen the multimodal LLM's capabilities, we fine-tune the model with a multimodal instruction set manually collected to cover diverse topics and tasks beyond simple QAs. We conduct comprehensive empirical analysis comprising both human and automatic evaluations, and demonstrate state-of-the-art performance on various multimodal tasks.
PDF567December 15, 2024