Wahrheit in den Wenigen: Auswahl hochwertiger Daten für effizientes multimodales Schließen
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning
June 5, 2025
Autoren: Shenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu
cs.AI
Zusammenfassung
Während multimodale große Sprachmodelle (MLLMs) durch Verstärkungslernen erhebliche Fortschritte bei komplexen Denkaufgaben erzielt haben, wird allgemein angenommen, dass umfangreiche Trainingsdaten notwendig sind, um die multimodale Denkfähigkeit zu verbessern, was unweigerlich zu Datenredundanz und erheblichen Rechenkosten führt. Doch können kleinere, hochwertige Datensätze die Leistung vollständiger Korpora für multimodales Denken in MLLMs erreichen oder übertreffen? In dieser Arbeit stellen wir diese Annahme durch eine zentrale Beobachtung in Frage: Sinnvolles multimodales Denken wird nur durch eine spärliche Teilmenge von Trainingsbeispielen, sogenannte kognitive Beispiele, ausgelöst, während die Mehrheit nur marginal beiträgt. Aufbauend auf dieser Erkenntnis schlagen wir ein neuartiges Datenauswahlparadigma namens Reasoning Activation Potential (RAP) vor, das kognitive Beispiele identifiziert, indem es das Potenzial jedes Beispiels schätzt, echtes multimodales Denken anzuregen. Dies geschieht durch zwei komplementäre Schätzer: 1) den Causal Discrepancy Estimator (CDE), der auf dem Prinzip des Potential Outcome Models basiert und Beispiele eliminiert, die zu stark auf Sprachprioritäten angewiesen sind, indem er die Ausgaben zwischen multimodalen und rein textbasierten Eingaben vergleicht; 2) den Attention Confidence Estimator (ACE), der Token-Level-Selbstaufmerksamkeit nutzt, um Beispiele zu verwerfen, die in Zwischenschritten des Denkprozesses von irrelevanten, aber überbetonten Tokens dominiert werden. Darüber hinaus führen wir ein Difficulty-aware Replacement Module (DRM) ein, das triviale Instanzen durch kognitiv anspruchsvolle ersetzt und so die Komplexität für robustes multimodales Denken sicherstellt. Experimente auf sechs Datensätzen zeigen, dass unsere RAP-Methode mit nur 9,3 % der Trainingsdaten durchweg überlegene Leistung erzielt und gleichzeitig die Rechenkosten um über 43 % reduziert. Unser Code ist verfügbar unter https://github.com/Leo-ssl/RAP.
English
While multi-modal large language models (MLLMs) have made significant
progress in complex reasoning tasks via reinforcement learning, it is commonly
believed that extensive training data is necessary for improving multi-modal
reasoning ability, inevitably leading to data redundancy and substantial
computational costs. However, can smaller high-value datasets match or
outperform full corpora for multi-modal reasoning in MLLMs? In this work, we
challenge this assumption through a key observation: meaningful multi-modal
reasoning is triggered by only a sparse subset of training samples, termed
cognitive samples, whereas the majority contribute marginally. Building on this
insight, we propose a novel data selection paradigm termed Reasoning Activation
Potential (RAP), which identifies cognitive samples by estimating each sample's
potential to stimulate genuine multi-modal reasoning by two complementary
estimators: 1) Causal Discrepancy Estimator (CDE) based on the potential
outcome model principle, eliminates samples that overly rely on language priors
by comparing outputs between multi-modal and text-only inputs; 2) Attention
Confidence Estimator (ACE), which exploits token-level self-attention to
discard samples dominated by irrelevant but over-emphasized tokens in
intermediate reasoning stages. Moreover, we introduce a Difficulty-aware
Replacement Module (DRM) to substitute trivial instances with cognitively
challenging ones, thereby ensuring complexity for robust multi-modal reasoning.
Experiments on six datasets show that our RAP method consistently achieves
superior performance using only 9.3% of the training data, while reducing
computational costs by over 43%. Our code is available at
https://github.com/Leo-ssl/RAP.