La vérité dans le peu : sélection de données à haute valeur pour un raisonnement multimodal efficace
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning
June 5, 2025
Auteurs: Shenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu
cs.AI
Résumé
Bien que les modèles de langage multi-modaux (MLLMs) aient réalisé des progrès significatifs dans les tâches de raisonnement complexe grâce à l'apprentissage par renforcement, il est communément admis que des données d'entraînement étendues sont nécessaires pour améliorer la capacité de raisonnement multi-modal, entraînant inévitablement une redondance des données et des coûts de calcul substantiels. Cependant, des ensembles de données plus petits mais de haute valeur peuvent-ils égaler ou surpasser des corpus complets pour le raisonnement multi-modal dans les MLLMs ? Dans ce travail, nous remettons en question cette hypothèse grâce à une observation clé : un raisonnement multi-modal significatif est déclenché par seulement un sous-ensemble restreint d'échantillons d'entraînement, appelés échantillons cognitifs, tandis que la majorité contribue marginalement. En nous appuyant sur cette idée, nous proposons un nouveau paradigme de sélection de données appelé Potentiel d'Activation du Raisonnement (RAP), qui identifie les échantillons cognitifs en estimant le potentiel de chaque échantillon à stimuler un véritable raisonnement multi-modal grâce à deux estimateurs complémentaires : 1) l'Estimateur de Discrépance Causale (CDE), basé sur le principe du modèle des résultats potentiels, élimine les échantillons qui dépendent excessivement des a priori linguistiques en comparant les sorties entre les entrées multi-modales et textuelles uniquement ; 2) l'Estimateur de Confiance d'Attention (ACE), qui exploite l'auto-attention au niveau des tokens pour écarter les échantillons dominés par des tokens non pertinents mais sur-emphasés dans les étapes intermédiaires du raisonnement. De plus, nous introduisons un Module de Remplacement Sensible à la Difficulté (DRM) pour remplacer les instances triviales par des exemples cognitivement stimulants, assurant ainsi une complexité nécessaire pour un raisonnement multi-modal robuste. Les expériences menées sur six ensembles de données montrent que notre méthode RAP atteint systématiquement des performances supérieures en utilisant seulement 9,3 % des données d'entraînement, tout en réduisant les coûts de calcul de plus de 43 %. Notre code est disponible à l'adresse https://github.com/Leo-ssl/RAP.
English
While multi-modal large language models (MLLMs) have made significant
progress in complex reasoning tasks via reinforcement learning, it is commonly
believed that extensive training data is necessary for improving multi-modal
reasoning ability, inevitably leading to data redundancy and substantial
computational costs. However, can smaller high-value datasets match or
outperform full corpora for multi-modal reasoning in MLLMs? In this work, we
challenge this assumption through a key observation: meaningful multi-modal
reasoning is triggered by only a sparse subset of training samples, termed
cognitive samples, whereas the majority contribute marginally. Building on this
insight, we propose a novel data selection paradigm termed Reasoning Activation
Potential (RAP), which identifies cognitive samples by estimating each sample's
potential to stimulate genuine multi-modal reasoning by two complementary
estimators: 1) Causal Discrepancy Estimator (CDE) based on the potential
outcome model principle, eliminates samples that overly rely on language priors
by comparing outputs between multi-modal and text-only inputs; 2) Attention
Confidence Estimator (ACE), which exploits token-level self-attention to
discard samples dominated by irrelevant but over-emphasized tokens in
intermediate reasoning stages. Moreover, we introduce a Difficulty-aware
Replacement Module (DRM) to substitute trivial instances with cognitively
challenging ones, thereby ensuring complexity for robust multi-modal reasoning.
Experiments on six datasets show that our RAP method consistently achieves
superior performance using only 9.3% of the training data, while reducing
computational costs by over 43%. Our code is available at
https://github.com/Leo-ssl/RAP.