(ほぼ)自由なモダリティ接続による基盤モデルの統合
(Almost) Free Modality Stitching of Foundation Models
July 14, 2025
著者: Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto
cs.AI
要旨
基盤マルチモーダルモデルは、複数の既存の事前学習済みユニモーダルモデルを組み合わせて設計されることが多い。例えば、画像分類器とテキストモデルを組み合わせる場合などである。この組み合わせプロセスは、これらのユニモーダルモデルの表現空間をマルチモーダル目的に合わせるためのコネクタモジュールを訓練することで行われる。しかし、大規模なウェブベースのデータセット上でこのようなコネクタを訓練する複雑さと、利用可能な事前学習済みユニモーダルモデルの数が増え続けていることを考えると、ユニモーダルモデルの選択とそれに続くコネクタモジュールの訓練は計算量が非常に大きくなる。この未解決の重要な問題に対処するため、我々はハイパーネットワークを活用した最適なユニモーダルモデル選択とコネクタ訓練のための新たなオールインワンソリューションであるHypernetwork Model Alignment (Hyma)を提案する。具体的には、我々のフレームワークはハイパーネットワークのパラメータ予測能力を利用して、N×Mのユニモーダルモデルの組み合わせに対して共同で訓練されたコネクタモジュールを取得する。実験では、Hymaは最適なユニモーダルモデルのペアを探索するコストを10分の1に削減し、多様なマルチモーダルベンチマークスイートにおけるグリッドサーチで得られたランキングと訓練済みコネクタの性能に匹敵する結果を示した。
English
Foundation multi-modal models are often designed by stitching of multiple
existing pretrained uni-modal models: for example, an image classifier with an
text model. This stitching process is performed by training a connector module
that aims to align the representation spaces of these uni-modal models towards
a multi-modal objective. However, given the complexity of training such
connectors on large scale web-based datasets coupled with the ever-increasing
number of available pretrained uni-modal models, the task of uni-modal models
selection and subsequent connector module training becomes computationally
demanding. To address this under-studied critical problem, we propose
Hypernetwork Model Alignment (Hyma), a novel all-in-one solution for optimal
uni-modal model selection and connector training by leveraging hypernetworks.
Specifically, our framework utilizes the parameter prediction capability of a
hypernetwork to obtain jointly trained connector modules for N times M
combinations of uni-modal models. In our experiments, Hyma reduces the cost of
searching for the best performing uni-modal model pair by 10times, while
matching the ranking and trained connector performance obtained via grid search
across a suite of diverse multi-modal benchmarks.