モダリティの拡張はオムニモダリティへの正しい道筋なのか?
Is Extending Modality The Right Path Towards Omni-Modality?
June 2, 2025
著者: Tinghui Zhu, Kai Zhang, Muhao Chen, Yu Su
cs.AI
要旨
オムニモーダル言語モデル(OLMs)は、テキスト、画像、動画、音声など多様な入力モダリティを統合し、推論を行うことを目指すと同時に、強力な言語能力を維持することを目的としている。近年の進展にもかかわらず、既存のモデル、特にオープンソースのモデルは、真のオムニモーダリティからは程遠く、訓練された特定のモダリティペアを超えて一般化することや、マルチモーダル入力を処理する際に高い性能を達成することに苦戦している。本研究では、マルチモーダルモデルを訓練する主要な技術であるモダリティ拡張の効果を検討する。具体的には、既存の言語モデルを対象ドメインおよび言語データでファインチューニングする手法を対象とする。特に、以下の3つの主要な問いに焦点を当てる:(1) モダリティ拡張はコア言語能力を損なうか? (2) 独立してファインチューニングされたモダリティ固有のモデルを統合することで、オムニモーダリティを達成できるか? (3) オムニモーダリティ拡張は、逐次拡張と比較して、より良い知識共有と一般化をもたらすか? 広範な実験を通じて、これらのトレードオフを分析し、現在のアプローチを用いて真のオムニモーダリティを達成する可能性についての洞察を提供する。
English
Omni-modal language models (OLMs) aim to integrate and reason over diverse
input modalities--such as text, images, video, and audio--while maintaining
strong language capabilities. Despite recent advancements, existing models,
especially open-source ones, remain far from true omni-modality, struggling to
generalize beyond the specific modality pairs they are trained on or to achieve
strong performance when processing multi-modal inputs. We study the effect of
extending modality, the dominant technique for training multimodal models,
where an off-the-shelf language model is fine-tuned on target-domain and
language data. Specifically, we investigate three key questions: (1) Does
modality extension compromise core language abilities? (2) Can model merging
effectively integrate independently fine-tuned modality-specific models to
achieve omni-modality? (3) Does omni-modality extension lead to better
knowledge sharing and generalization compared to sequential extension? Through
extensive experiments, we analyze these trade-offs and provide insights into
the feasibility of achieving true omni-modality using current approaches.