Verità nei Pochi: Selezione di Dati ad Alto Valore per un Ragionamento Multi-Modale Efficiente
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning
June 5, 2025
Autori: Shenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu
cs.AI
Abstract
Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLMs) abbiano compiuto progressi significativi nei compiti di ragionamento complesso attraverso l'apprendimento per rinforzo, è comunemente ritenuto che siano necessari ampi set di dati di addestramento per migliorare la capacità di ragionamento multimodale, portando inevitabilmente a ridondanza dei dati e costi computazionali sostanziali. Tuttavia, è possibile che set di dati più piccoli ma di alto valore possano eguagliare o superare i corpora completi per il ragionamento multimodale negli MLLMs? In questo lavoro, mettiamo in discussione questa ipotesi attraverso un'osservazione chiave: il ragionamento multimodale significativo è attivato solo da un sottoinsieme sparso di campioni di addestramento, denominati campioni cognitivi, mentre la maggior parte contribuisce in modo marginale. Basandoci su questa intuizione, proponiamo un nuovo paradigma di selezione dei dati denominato Potenziale di Attivazione del Ragionamento (RAP), che identifica i campioni cognitivi stimando il potenziale di ciascun campione di stimolare un autentico ragionamento multimodale attraverso due stimatori complementari: 1) lo Stimatore di Discrepanza Causale (CDE), basato sul principio del modello di outcome potenziale, elimina i campioni che si affidano eccessivamente a prior linguistiche confrontando gli output tra input multimodali e solo testuali; 2) lo Stimatore di Fiducia dell'Attenzione (ACE), che sfrutta l'auto-attenzione a livello di token per scartare i campioni dominati da token irrilevanti ma eccessivamente enfatizzati nelle fasi intermedie del ragionamento. Inoltre, introduciamo un Modulo di Sostituzione Consapevole della Difficoltà (DRM) per sostituire le istanze banali con altre cognitivamente impegnative, garantendo così la complessità necessaria per un ragionamento multimodale robusto. Gli esperimenti su sei set di dati dimostrano che il nostro metodo RAP raggiunge costantemente prestazioni superiori utilizzando solo il 9,3% dei dati di addestramento, riducendo i costi computazionali di oltre il 43%. Il nostro codice è disponibile all'indirizzo https://github.com/Leo-ssl/RAP.
English
While multi-modal large language models (MLLMs) have made significant
progress in complex reasoning tasks via reinforcement learning, it is commonly
believed that extensive training data is necessary for improving multi-modal
reasoning ability, inevitably leading to data redundancy and substantial
computational costs. However, can smaller high-value datasets match or
outperform full corpora for multi-modal reasoning in MLLMs? In this work, we
challenge this assumption through a key observation: meaningful multi-modal
reasoning is triggered by only a sparse subset of training samples, termed
cognitive samples, whereas the majority contribute marginally. Building on this
insight, we propose a novel data selection paradigm termed Reasoning Activation
Potential (RAP), which identifies cognitive samples by estimating each sample's
potential to stimulate genuine multi-modal reasoning by two complementary
estimators: 1) Causal Discrepancy Estimator (CDE) based on the potential
outcome model principle, eliminates samples that overly rely on language priors
by comparing outputs between multi-modal and text-only inputs; 2) Attention
Confidence Estimator (ACE), which exploits token-level self-attention to
discard samples dominated by irrelevant but over-emphasized tokens in
intermediate reasoning stages. Moreover, we introduce a Difficulty-aware
Replacement Module (DRM) to substitute trivial instances with cognitively
challenging ones, thereby ensuring complexity for robust multi-modal reasoning.
Experiments on six datasets show that our RAP method consistently achieves
superior performance using only 9.3% of the training data, while reducing
computational costs by over 43%. Our code is available at
https://github.com/Leo-ssl/RAP.