ChatPaper.aiChatPaper

AnyMAL: Um Modelo de Linguagem Aumentado de Qualquer Modalidade Eficiente e Escalável

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

September 27, 2023
Autores: Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
cs.AI

Resumo

Apresentamos o Modelo de Linguagem Aumentada de Qualquer Modalidade (AnyMAL), um modelo unificado que raciocina sobre sinais de entrada de diversas modalidades (ou seja, texto, imagem, vídeo, áudio, sensor de movimento IMU) e gera respostas textuais. O AnyMAL herda as poderosas habilidades de raciocínio baseado em texto dos modelos de linguagem de última geração, incluindo o LLaMA-2 (70B), e converte sinais específicos de cada modalidade para o espaço textual conjunto por meio de um módulo alinhador pré-treinado. Para fortalecer ainda mais as capacidades do modelo de linguagem multimodal, ajustamos o modelo com um conjunto de instruções multimodais coletadas manualmente para abranger diversos tópicos e tarefas além de simples perguntas e respostas. Realizamos uma análise empírica abrangente, incluindo avaliações humanas e automáticas, e demonstramos desempenho de ponta em várias tarefas multimodais.
English
We present Any-Modality Augmented Language Model (AnyMAL), a unified model that reasons over diverse input modality signals (i.e. text, image, video, audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the powerful text-based reasoning abilities of the state-of-the-art LLMs including LLaMA-2 (70B), and converts modality-specific signals to the joint textual space through a pre-trained aligner module. To further strengthen the multimodal LLM's capabilities, we fine-tune the model with a multimodal instruction set manually collected to cover diverse topics and tasks beyond simple QAs. We conduct comprehensive empirical analysis comprising both human and automatic evaluations, and demonstrate state-of-the-art performance on various multimodal tasks.
PDF577December 15, 2024