ChatPaper.aiChatPaper

AnyMAL: Эффективная и масштабируемая языковая модель с расширенной поддержкой любых модальностей

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

September 27, 2023
Авторы: Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
cs.AI

Аннотация

Мы представляем Any-Modality Augmented Language Model (AnyMAL) — унифицированную модель, которая анализирует разнообразные сигналы входных модальностей (такие как текст, изображения, видео, аудио и данные сенсоров движения IMU) и генерирует текстовые ответы. AnyMAL наследует мощные способности к текстовому анализу современных языковых моделей, включая LLaMA-2 (70B), и преобразует сигналы, специфичные для каждой модальности, в общее текстовое пространство с помощью предварительно обученного модуля выравнивания. Для дальнейшего усиления возможностей мультимодальной языковой модели мы проводим тонкую настройку модели с использованием мультимодального набора инструкций, собранного вручную и охватывающего разнообразные темы и задачи, выходящие за рамки простых вопросов и ответов. Мы проводим всесторонний эмпирический анализ, включающий как человеческую, так и автоматическую оценку, и демонстрируем передовые результаты на различных мультимодальных задачах.
English
We present Any-Modality Augmented Language Model (AnyMAL), a unified model that reasons over diverse input modality signals (i.e. text, image, video, audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the powerful text-based reasoning abilities of the state-of-the-art LLMs including LLaMA-2 (70B), and converts modality-specific signals to the joint textual space through a pre-trained aligner module. To further strengthen the multimodal LLM's capabilities, we fine-tune the model with a multimodal instruction set manually collected to cover diverse topics and tasks beyond simple QAs. We conduct comprehensive empirical analysis comprising both human and automatic evaluations, and demonstrate state-of-the-art performance on various multimodal tasks.
PDF567December 15, 2024