ChatPaper.aiChatPaper

AnyMAL: Een efficiënt en schaalbaar taalmodel met uitbreidingen voor elke modaliteit

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

September 27, 2023
Auteurs: Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
cs.AI

Samenvatting

We presenteren Any-Modality Augmented Language Model (AnyMAL), een geïntegreerd model dat redeneert over diverse invoermodaliteitssignalen (zoals tekst, beeld, video, audio, IMU-bewegingssensor) en tekstuele antwoorden genereert. AnyMAL erft de krachtige tekstgebaseerde redeneervaardigheden van state-of-the-art LLM's, waaronder LLaMA-2 (70B), en zet modaliteitsspecifieke signalen om naar de gezamenlijke tekstuele ruimte via een vooraf getrainde aligner-module. Om de mogelijkheden van de multimodale LLM verder te versterken, fine-tunen we het model met een multimodale instructieset die handmatig is verzameld om diverse onderwerpen en taken te bestrijken die verder gaan dan eenvoudige vraag-antwoordscenario's. We voeren een uitgebreide empirische analyse uit, bestaande uit zowel menselijke als automatische evaluaties, en demonstreren state-of-the-art prestaties op verschillende multimodale taken.
English
We present Any-Modality Augmented Language Model (AnyMAL), a unified model that reasons over diverse input modality signals (i.e. text, image, video, audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the powerful text-based reasoning abilities of the state-of-the-art LLMs including LLaMA-2 (70B), and converts modality-specific signals to the joint textual space through a pre-trained aligner module. To further strengthen the multimodal LLM's capabilities, we fine-tune the model with a multimodal instruction set manually collected to cover diverse topics and tasks beyond simple QAs. We conduct comprehensive empirical analysis comprising both human and automatic evaluations, and demonstrate state-of-the-art performance on various multimodal tasks.
PDF577December 15, 2024