OmniBind: Groß angelegte Omni-Multimodale Repräsentation durch Bindungsräume
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces
July 16, 2024
Autoren: Zehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao
cs.AI
Zusammenfassung
In jüngster Zeit haben die Interaktionen zwischen Mensch und Computer mit verschiedenen Modalitäten vielversprechende Anwendungen gezeigt, wie z.B. GPT-4o und Gemini. Angesichts der grundlegenden Rolle multimodaler gemeinsamer Repräsentationen in Verständnis- und Generierungspipelines wären hochwertige Omni-Gemeinschaftsrepräsentationen ein Schritt hin zur gemeinsamen Verarbeitung vielfältiger multimodaler Informationen. In dieser Arbeit präsentieren wir OmniBind, groß angelegte multimodale gemeinsame Repräsentationsmodelle mit einem Umfang von 7 Milliarden bis 30 Milliarden Parametern, die 3D-, Audio-, Bild- und Spracheingaben unterstützen. Aufgrund der Knappheit von Datensätzen über alle Modalitäten hinweg schlagen wir vor, anstelle von der Grundlage aus große Modelle von Grund auf zu trainieren, die Räume verschiedener vortrainierter Spezialmodelle neu zu kartieren und zu verknüpfen. Dieser Ansatz ermöglicht es, durch indirektes Erhöhen der Modellparameter und der Menge an gesehenen Daten "skalieren". Um verschiedene Räume effektiv zu integrieren, weisen wir dynamisch Gewichte verschiedenen Räumen zu, indem wir Router mit zwei Zielen lernen: insgesamt kreuzmodale Ausrichtung und Entkopplung der Sprachrepräsentation. Bemerkenswert ist, dass OmniBind aufgrund der Tatsache, dass das Verknüpfen und Routen von Räumen nur leichte Netzwerke erfordert, äußerst trainingseffizient ist. Das Lernen des größten 30B-Modells erfordert lediglich unpaarige unimodale Daten und etwa 3 Tage auf einem einzelnen 8-4090-Knoten. Umfangreiche Experimente zeigen die Vielseitigkeit und Überlegenheit von OmniBind als Omni-Repräsentationsmodell auf und heben sein großes Potenzial für vielfältige Anwendungen hervor, wie z.B. beliebige Abfragen und zusammensetzbare multimodale Verständnis.
English
Recently, human-computer interaction with various modalities has shown
promising applications, like GPT-4o and Gemini. Given the foundational role of
multimodal joint representation in understanding and generation pipelines,
high-quality omni joint representations would be a step toward co-processing
more diverse multimodal information. In this work, we present OmniBind,
large-scale multimodal joint representation models ranging in scale from 7
billion to 30 billion parameters, which support 3D, audio, image, and language
inputs. Due to the scarcity of data pairs across all modalities, instead of
training large models from scratch, we propose remapping and binding the spaces
of various pre-trained specialist models together. This approach enables
"scaling up" by indirectly increasing the model parameters and the amount of
seen data. To effectively integrate various spaces, we dynamically assign
weights to different spaces by learning routers with two objectives:
cross-modal overall alignment and language representation decoupling. Notably,
since binding and routing spaces both only require lightweight networks,
OmniBind is extremely training-efficient. Learning the largest 30B model
requires merely unpaired unimodal data and approximately 3 days on a single
8-4090 node. Extensive experiments demonstrate the versatility and superiority
of OmniBind as an omni representation model, highlighting its great potential
for diverse applications, such as any-query and composable multimodal
understanding.Summary
AI-Generated Summary