OmniBind:空間結合による大規模オムニモーダル表現
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces
July 16, 2024
著者: Zehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao
cs.AI
要旨
近年、GPT-4oやGeminiなどの様々なモダリティを用いた人間とコンピュータのインタラクションが有望な応用を示しています。理解と生成のパイプラインにおけるマルチモーダル共同表現の基礎的な役割を考えると、高品質なオムニ共同表現は、より多様なマルチモーダル情報の共同処理に向けた一歩となるでしょう。本研究では、3D、音声、画像、言語の入力をサポートする、70億から300億パラメータ規模の大規模マルチモーダル共同表現モデルであるOmniBindを提案します。全てのモダリティにわたるデータペアの不足を考慮し、大規模モデルをゼロから訓練する代わりに、様々な事前訓練された専門モデルの空間を再マッピングし結合することを提案します。このアプローチにより、モデルのパラメータ数と見たデータの量を間接的に増やすことで「スケールアップ」を可能にします。様々な空間を効果的に統合するために、2つの目的(クロスモーダル全体のアラインメントと言語表現のデカップリング)を持つルーターを学習することで、異なる空間に動的に重みを割り当てます。特に、結合とルーティング空間の両方が軽量なネットワークのみを必要とするため、OmniBindは非常に訓練効率が良いです。最大の300億パラメータモデルの学習には、単一の8-4090ノード上でわずか3日間と、ペアになっていない単一モーダルデータのみが必要です。広範な実験により、OmniBindがオムニ表現モデルとしての汎用性と優位性を示し、any-queryや構成可能なマルチモーダル理解などの多様な応用における大きな可能性を強調しています。
English
Recently, human-computer interaction with various modalities has shown
promising applications, like GPT-4o and Gemini. Given the foundational role of
multimodal joint representation in understanding and generation pipelines,
high-quality omni joint representations would be a step toward co-processing
more diverse multimodal information. In this work, we present OmniBind,
large-scale multimodal joint representation models ranging in scale from 7
billion to 30 billion parameters, which support 3D, audio, image, and language
inputs. Due to the scarcity of data pairs across all modalities, instead of
training large models from scratch, we propose remapping and binding the spaces
of various pre-trained specialist models together. This approach enables
"scaling up" by indirectly increasing the model parameters and the amount of
seen data. To effectively integrate various spaces, we dynamically assign
weights to different spaces by learning routers with two objectives:
cross-modal overall alignment and language representation decoupling. Notably,
since binding and routing spaces both only require lightweight networks,
OmniBind is extremely training-efficient. Learning the largest 30B model
requires merely unpaired unimodal data and approximately 3 days on a single
8-4090 node. Extensive experiments demonstrate the versatility and superiority
of OmniBind as an omni representation model, highlighting its great potential
for diverse applications, such as any-query and composable multimodal
understanding.Summary
AI-Generated Summary