Waarheid in de Weinigen: Selectie van Hoogwaardige Gegevens voor Efficiënte Multi-Modale Redenering
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning
June 5, 2025
Auteurs: Shenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu
cs.AI
Samenvatting
Hoewel multimodale grote taalmodellen (MLLMs) aanzienlijke vooruitgang hebben geboekt in complexe redeneertaken via reinforcement learning, wordt algemeen aangenomen dat uitgebreide trainingsdata noodzakelijk is om de multimodale redeneervaardigheid te verbeteren, wat onvermijdelijk leidt tot dataredundantie en aanzienlijke rekenkosten. Maar kunnen kleinere datasets met een hoge waarde de volledige corpora evenaren of overtreffen voor multimodaal redeneren in MLLMs? In dit werk dagen we deze aanname uit via een belangrijke observatie: zinvol multimodaal redeneren wordt slechts getriggerd door een schaarse subset van trainingsvoorbeelden, genaamd cognitieve voorbeelden, terwijl de meerderheid marginaal bijdraagt. Op basis van dit inzicht stellen we een nieuw dataselectieparadigma voor, genaamd Reasoning Activation Potential (RAP), dat cognitieve voorbeelden identificeert door het potentieel van elk voorbeeld om echt multimodaal redeneren te stimuleren te schatten via twee complementaire schatters: 1) de Causal Discrepancy Estimator (CDE), gebaseerd op het principe van het potentiële uitkomstmodel, elimineert voorbeelden die te veel vertrouwen op taalpriors door de uitvoer tussen multimodale en tekstuele invoer te vergelijken; 2) de Attention Confidence Estimator (ACE), die token-level zelf-attentie benut om voorbeelden te verwijderen die worden gedomineerd door irrelevante maar overbenadrukte tokens in tussenliggende redeneerstappen. Bovendien introduceren we een Difficulty-aware Replacement Module (DRM) om triviale instanties te vervangen door cognitief uitdagende, waardoor complexiteit wordt gewaarborgd voor robuust multimodaal redeneren. Experimenten op zes datasets tonen aan dat onze RAP-methode consistent superieure prestaties behaalt met slechts 9,3% van de trainingsdata, terwijl de rekenkosten met meer dan 43% worden verlaagd. Onze code is beschikbaar op https://github.com/Leo-ssl/RAP.
English
While multi-modal large language models (MLLMs) have made significant
progress in complex reasoning tasks via reinforcement learning, it is commonly
believed that extensive training data is necessary for improving multi-modal
reasoning ability, inevitably leading to data redundancy and substantial
computational costs. However, can smaller high-value datasets match or
outperform full corpora for multi-modal reasoning in MLLMs? In this work, we
challenge this assumption through a key observation: meaningful multi-modal
reasoning is triggered by only a sparse subset of training samples, termed
cognitive samples, whereas the majority contribute marginally. Building on this
insight, we propose a novel data selection paradigm termed Reasoning Activation
Potential (RAP), which identifies cognitive samples by estimating each sample's
potential to stimulate genuine multi-modal reasoning by two complementary
estimators: 1) Causal Discrepancy Estimator (CDE) based on the potential
outcome model principle, eliminates samples that overly rely on language priors
by comparing outputs between multi-modal and text-only inputs; 2) Attention
Confidence Estimator (ACE), which exploits token-level self-attention to
discard samples dominated by irrelevant but over-emphasized tokens in
intermediate reasoning stages. Moreover, we introduce a Difficulty-aware
Replacement Module (DRM) to substitute trivial instances with cognitively
challenging ones, thereby ensuring complexity for robust multi-modal reasoning.
Experiments on six datasets show that our RAP method consistently achieves
superior performance using only 9.3% of the training data, while reducing
computational costs by over 43%. Our code is available at
https://github.com/Leo-ssl/RAP.