ChatPaper.aiChatPaper

La vérité dans le peu : sélection de données à haute valeur pour un raisonnement multimodal efficace

Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning

June 5, 2025
Auteurs: Shenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu
cs.AI

Résumé

Bien que les modèles de langage multi-modaux (MLLMs) aient réalisé des progrès significatifs dans les tâches de raisonnement complexe grâce à l'apprentissage par renforcement, il est communément admis que des données d'entraînement étendues sont nécessaires pour améliorer la capacité de raisonnement multi-modal, entraînant inévitablement une redondance des données et des coûts de calcul substantiels. Cependant, des ensembles de données plus petits mais de haute valeur peuvent-ils égaler ou surpasser des corpus complets pour le raisonnement multi-modal dans les MLLMs ? Dans ce travail, nous remettons en question cette hypothèse grâce à une observation clé : un raisonnement multi-modal significatif est déclenché par seulement un sous-ensemble restreint d'échantillons d'entraînement, appelés échantillons cognitifs, tandis que la majorité contribue marginalement. En nous appuyant sur cette idée, nous proposons un nouveau paradigme de sélection de données appelé Potentiel d'Activation du Raisonnement (RAP), qui identifie les échantillons cognitifs en estimant le potentiel de chaque échantillon à stimuler un véritable raisonnement multi-modal grâce à deux estimateurs complémentaires : 1) l'Estimateur de Discrépance Causale (CDE), basé sur le principe du modèle des résultats potentiels, élimine les échantillons qui dépendent excessivement des a priori linguistiques en comparant les sorties entre les entrées multi-modales et textuelles uniquement ; 2) l'Estimateur de Confiance d'Attention (ACE), qui exploite l'auto-attention au niveau des tokens pour écarter les échantillons dominés par des tokens non pertinents mais sur-emphasés dans les étapes intermédiaires du raisonnement. De plus, nous introduisons un Module de Remplacement Sensible à la Difficulté (DRM) pour remplacer les instances triviales par des exemples cognitivement stimulants, assurant ainsi une complexité nécessaire pour un raisonnement multi-modal robuste. Les expériences menées sur six ensembles de données montrent que notre méthode RAP atteint systématiquement des performances supérieures en utilisant seulement 9,3 % des données d'entraînement, tout en réduisant les coûts de calcul de plus de 43 %. Notre code est disponible à l'adresse https://github.com/Leo-ssl/RAP.
English
While multi-modal large language models (MLLMs) have made significant progress in complex reasoning tasks via reinforcement learning, it is commonly believed that extensive training data is necessary for improving multi-modal reasoning ability, inevitably leading to data redundancy and substantial computational costs. However, can smaller high-value datasets match or outperform full corpora for multi-modal reasoning in MLLMs? In this work, we challenge this assumption through a key observation: meaningful multi-modal reasoning is triggered by only a sparse subset of training samples, termed cognitive samples, whereas the majority contribute marginally. Building on this insight, we propose a novel data selection paradigm termed Reasoning Activation Potential (RAP), which identifies cognitive samples by estimating each sample's potential to stimulate genuine multi-modal reasoning by two complementary estimators: 1) Causal Discrepancy Estimator (CDE) based on the potential outcome model principle, eliminates samples that overly rely on language priors by comparing outputs between multi-modal and text-only inputs; 2) Attention Confidence Estimator (ACE), which exploits token-level self-attention to discard samples dominated by irrelevant but over-emphasized tokens in intermediate reasoning stages. Moreover, we introduce a Difficulty-aware Replacement Module (DRM) to substitute trivial instances with cognitively challenging ones, thereby ensuring complexity for robust multi-modal reasoning. Experiments on six datasets show that our RAP method consistently achieves superior performance using only 9.3% of the training data, while reducing computational costs by over 43%. Our code is available at https://github.com/Leo-ssl/RAP.
PDF352June 9, 2025