OmniBind: Масштабное представление Omni мультимодальности через пространства связывания
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces
July 16, 2024
Авторы: Zehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao
cs.AI
Аннотация
Недавно взаимодействие человека с компьютером с использованием различных модальностей показало многообещающие приложения, такие как GPT-4o и Gemini. Учитывая фундаментальную роль мультимодального совместного представления в конвейерах понимания и генерации, высококачественные общие представления Omni были бы шагом к совместной обработке более разнообразной мультимодальной информации. В данной работе мы представляем модели OmniBind - масштабные мультимодальные общие представления, варьирующиеся по размеру от 7 миллиардов до 30 миллиардов параметров, которые поддерживают ввод 3D, аудио, изображений и языка. Из-за недостатка пар данных по всем модальностям, вместо обучения больших моделей с нуля мы предлагаем переназначение и объединение пространств различных предварительно обученных специализированных моделей. Этот подход позволяет "масштабироваться", косвенно увеличивая количество параметров модели и объем виденных данных. Для эффективного интегрирования различных пространств мы динамически назначаем веса различным пространствам, обучая маршрутизаторы с двумя целями: общая выравнивание между модальностями и разделение представления языка. Следует отметить, что поскольку для объединения и маршрутизации пространств требуются только легкие сети, OmniBind является чрезвычайно эффективной в обучении. Обучение самой большой модели на 30 миллиардов параметров требует лишь непарных унимодальных данных и приблизительно 3 дней на одном узле 8-4090. Обширные эксперименты демонстрируют универсальность и превосходство OmniBind в качестве модели общего представления, подчеркивая ее большой потенциал для различных приложений, таких как любой запрос и композиционное мультимодальное понимание.
English
Recently, human-computer interaction with various modalities has shown
promising applications, like GPT-4o and Gemini. Given the foundational role of
multimodal joint representation in understanding and generation pipelines,
high-quality omni joint representations would be a step toward co-processing
more diverse multimodal information. In this work, we present OmniBind,
large-scale multimodal joint representation models ranging in scale from 7
billion to 30 billion parameters, which support 3D, audio, image, and language
inputs. Due to the scarcity of data pairs across all modalities, instead of
training large models from scratch, we propose remapping and binding the spaces
of various pre-trained specialist models together. This approach enables
"scaling up" by indirectly increasing the model parameters and the amount of
seen data. To effectively integrate various spaces, we dynamically assign
weights to different spaces by learning routers with two objectives:
cross-modal overall alignment and language representation decoupling. Notably,
since binding and routing spaces both only require lightweight networks,
OmniBind is extremely training-efficient. Learning the largest 30B model
requires merely unpaired unimodal data and approximately 3 days on a single
8-4090 node. Extensive experiments demonstrate the versatility and superiority
of OmniBind as an omni representation model, highlighting its great potential
for diverse applications, such as any-query and composable multimodal
understanding.Summary
AI-Generated Summary