(거의) 무료 모달리티 스티칭을 통한 파운데이션 모델 활용
(Almost) Free Modality Stitching of Foundation Models
July 14, 2025
저자: Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto
cs.AI
초록
기초 다중 모달 모델은 종종 여러 기존의 사전 학습된 단일 모달 모델을 결합하여 설계됩니다: 예를 들어, 이미지 분류기와 텍스트 모델을 결합하는 방식입니다. 이러한 결합 과정은 단일 모달 모델들의 표현 공간을 다중 모달 목표에 맞춰 정렬하기 위한 커넥터 모듈을 학습함으로써 수행됩니다. 그러나 대규모 웹 기반 데이터셋에서 이러한 커넥터를 학습하는 복잡성과 함께 사용 가능한 사전 학습된 단일 모달 모델의 수가 지속적으로 증가함에 따라, 단일 모달 모델 선택 및 이후의 커넥터 모듈 학습 작업은 계산적으로 매우 부담스러워집니다. 이 잘 연구되지 않은 중요한 문제를 해결하기 위해, 우리는 하이퍼네트워크를 활용하여 최적의 단일 모달 모델 선택과 커넥터 학습을 위한 통합 솔루션인 Hypernetwork Model Alignment (Hyma)를 제안합니다. 구체적으로, 우리의 프레임워크는 하이퍼네트워크의 매개변수 예측 능력을 활용하여 N개의 단일 모달 모델 조합에 대해 공동으로 학습된 커넥터 모듈을 얻습니다. 실험에서 Hyma는 그리드 서치를 통해 얻은 순위와 학습된 커넥터 성능을 유지하면서, 최적의 단일 모달 모델 쌍을 탐색하는 비용을 10배 줄였습니다. 이는 다양한 다중 모달 벤치마크에서 검증되었습니다.
English
Foundation multi-modal models are often designed by stitching of multiple
existing pretrained uni-modal models: for example, an image classifier with an
text model. This stitching process is performed by training a connector module
that aims to align the representation spaces of these uni-modal models towards
a multi-modal objective. However, given the complexity of training such
connectors on large scale web-based datasets coupled with the ever-increasing
number of available pretrained uni-modal models, the task of uni-modal models
selection and subsequent connector module training becomes computationally
demanding. To address this under-studied critical problem, we propose
Hypernetwork Model Alignment (Hyma), a novel all-in-one solution for optimal
uni-modal model selection and connector training by leveraging hypernetworks.
Specifically, our framework utilizes the parameter prediction capability of a
hypernetwork to obtain jointly trained connector modules for N times M
combinations of uni-modal models. In our experiments, Hyma reduces the cost of
searching for the best performing uni-modal model pair by 10times, while
matching the ranking and trained connector performance obtained via grid search
across a suite of diverse multi-modal benchmarks.