MARVIS: 可視化に対するモダリティ適応型推論
MARVIS: Modality Adaptive Reasoning over VISualizations
July 2, 2025
著者: Benjamin Feuer, Lennart Purucker, Oussama Elachqar, Chinmay Hegde
cs.AI
要旨
機械学習の科学的応用では、特定の領域に特化した小型のモデルがしばしば用いられる。これらのモデルは優れた性能を発揮するが、柔軟性に欠ける。一方、基盤モデルは汎用性を提供するものの、特に非伝統的なモダリティやロングテール領域においては、特化型アプローチに比べて性能が劣る傾向がある。本研究では、MARVIS(Modality Adaptive Reasoning over VISualizations)を提案する。これは、訓練を必要とせず、小型の視覚言語モデルであっても高い精度で任意のデータモダリティを予測可能にする手法である。MARVISは潜在埋め込み空間を視覚表現に変換し、視覚言語モデルが持つ空間的かつ細粒度の推論能力を活用して、それらを解釈・利用する。MARVISは、単一の3Bパラメータモデルを用いて、視覚、音声、生物学的、表形式の各領域において競争力のある性能を達成し、Geminiを平均16%上回る結果を示し、特化型手法に接近する性能を発揮する。これにより、個人識別情報(P.I.I.)を露出させることなく、また領域固有の訓練を必要とせずに、高い精度を実現する。我々は、コードとデータセットをhttps://github.com/penfever/marvisで公開している。
English
Scientific applications of machine learning often rely on small, specialized
models tuned to particular domains. Such models often achieve excellent
performance, but lack flexibility. Foundation models offer versatility, but
typically underperform specialized approaches, especially on non-traditional
modalities and long-tail domains. We propose MARVIS (Modality Adaptive
Reasoning over VISualizations), a training-free method that enables even small
vision-language models to predict any data modality with high accuracy. MARVIS
transforms latent embedding spaces into visual representations and then
leverages the spatial and fine-grained reasoning skills of VLMs to successfully
interpret and utilize them. MARVIS achieves competitive performance on vision,
audio, biological, and tabular domains using a single 3B parameter model,
achieving results that beat Gemini by 16\% on average and approach specialized
methods, without exposing personally identifiable information (P.I.I.) or
requiring any domain-specific training. We open source our code and datasets at
https://github.com/penfever/marvis