ChatPaper.aiChatPaper

MARVIS: Modaal Adaptief Redeneren over VISualisaties

MARVIS: Modality Adaptive Reasoning over VISualizations

July 2, 2025
Auteurs: Benjamin Feuer, Lennart Purucker, Oussama Elachqar, Chinmay Hegde
cs.AI

Samenvatting

Wetenschappelijke toepassingen van machine learning zijn vaak gebaseerd op kleine, gespecialiseerde modellen die zijn afgestemd op specifieke domeinen. Dergelijke modellen bereiken vaak uitstekende prestaties, maar missen flexibiliteit. Foundation-modellen bieden veelzijdigheid, maar presteren doorgaans minder goed dan gespecialiseerde benaderingen, vooral bij niet-traditionele modaliteiten en long-tail domeinen. Wij stellen MARVIS voor (Modality Adaptive Reasoning over VISualizations), een trainingsvrije methode die zelfs kleine vision-language-modellen in staat stelt om elke datamodaliteit met hoge nauwkeurigheid te voorspellen. MARVIS transformeert latente embeddingruimtes in visuele representaties en benut vervolgens de ruimtelijke en fijnmazige redeneervaardigheden van VLMs om deze succesvol te interpreteren en te gebruiken. MARVIS behaalt competitieve prestaties op het gebied van visie, audio, biologie en tabulaire gegevens met behulp van een enkel model met 3B parameters, waarbij resultaten worden bereikt die Gemini gemiddeld met 16\% verslaan en gespecialiseerde methoden benaderen, zonder persoonlijk identificeerbare informatie (P.I.I.) bloot te leggen of domeinspecifieke training te vereisen. Wij maken onze code en datasets openbaar op https://github.com/penfever/marvis.
English
Scientific applications of machine learning often rely on small, specialized models tuned to particular domains. Such models often achieve excellent performance, but lack flexibility. Foundation models offer versatility, but typically underperform specialized approaches, especially on non-traditional modalities and long-tail domains. We propose MARVIS (Modality Adaptive Reasoning over VISualizations), a training-free method that enables even small vision-language models to predict any data modality with high accuracy. MARVIS transforms latent embedding spaces into visual representations and then leverages the spatial and fine-grained reasoning skills of VLMs to successfully interpret and utilize them. MARVIS achieves competitive performance on vision, audio, biological, and tabular domains using a single 3B parameter model, achieving results that beat Gemini by 16\% on average and approach specialized methods, without exposing personally identifiable information (P.I.I.) or requiring any domain-specific training. We open source our code and datasets at https://github.com/penfever/marvis
PDF111July 3, 2025