OmniBind : Représentation Omni Multimodale à Grande Échelle par Liaison d'Espaces
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces
July 16, 2024
Auteurs: Zehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao
cs.AI
Résumé
Récemment, l'interaction homme-machine avec diverses modalités a montré des applications prometteuses, comme GPT-4o et Gemini. Compte tenu du rôle fondamental de la représentation conjointe multimodale dans les pipelines de compréhension et de génération, des représentations conjointes omni de haute qualité constitueraient une avancée vers le traitement simultané d'informations multimodales plus diversifiées. Dans ce travail, nous présentons OmniBind, des modèles de représentation conjointe multimodale à grande échelle, allant de 7 à 30 milliards de paramètres, qui prennent en charge des entrées en 3D, audio, image et langage. En raison de la rareté des paires de données couvrant toutes les modalités, plutôt que d'entraîner de grands modèles à partir de zéro, nous proposons de remapper et de lier les espaces de divers modèles spécialisés pré-entraînés. Cette approche permet un "mise à l'échelle" en augmentant indirectement le nombre de paramètres du modèle et la quantité de données observées. Pour intégrer efficacement divers espaces, nous attribuons dynamiquement des poids à différents espaces en apprenant des routeurs avec deux objectifs : l'alignement global intermodal et le découplage de la représentation linguistique. Notamment, puisque la liaison et le routage des espaces ne nécessitent que des réseaux légers, OmniBind est extrêmement efficace en termes d'entraînement. L'apprentissage du plus grand modèle de 30 milliards de paramètres ne nécessite que des données unimodales non appariées et environ 3 jours sur un seul nœud équipé de 8 GPU 4090. Des expériences approfondies démontrent la polyvalence et la supériorité d'OmniBind en tant que modèle de représentation omni, mettant en évidence son grand potentiel pour diverses applications, telles que la compréhension multimodale à requête libre et composable.
English
Recently, human-computer interaction with various modalities has shown
promising applications, like GPT-4o and Gemini. Given the foundational role of
multimodal joint representation in understanding and generation pipelines,
high-quality omni joint representations would be a step toward co-processing
more diverse multimodal information. In this work, we present OmniBind,
large-scale multimodal joint representation models ranging in scale from 7
billion to 30 billion parameters, which support 3D, audio, image, and language
inputs. Due to the scarcity of data pairs across all modalities, instead of
training large models from scratch, we propose remapping and binding the spaces
of various pre-trained specialist models together. This approach enables
"scaling up" by indirectly increasing the model parameters and the amount of
seen data. To effectively integrate various spaces, we dynamically assign
weights to different spaces by learning routers with two objectives:
cross-modal overall alignment and language representation decoupling. Notably,
since binding and routing spaces both only require lightweight networks,
OmniBind is extremely training-efficient. Learning the largest 30B model
requires merely unpaired unimodal data and approximately 3 days on a single
8-4090 node. Extensive experiments demonstrate the versatility and superiority
of OmniBind as an omni representation model, highlighting its great potential
for diverse applications, such as any-query and composable multimodal
understanding.Summary
AI-Generated Summary