La verdad en los pocos: selección de datos de alto valor para un razonamiento multimodal eficiente
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning
June 5, 2025
Autores: Shenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu
cs.AI
Resumen
Si bien los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances significativos en tareas de razonamiento complejo mediante el aprendizaje por refuerzo, comúnmente se cree que se requieren grandes volúmenes de datos de entrenamiento para mejorar la capacidad de razonamiento multimodal, lo que inevitablemente conduce a redundancia de datos y costos computacionales sustanciales. Sin embargo, ¿pueden conjuntos de datos más pequeños pero de alto valor igualar o superar a los corpus completos en el razonamiento multimodal de los MLLMs? En este trabajo, desafiamos esta suposición a través de una observación clave: el razonamiento multimodal significativo es activado únicamente por un subconjunto reducido de muestras de entrenamiento, denominadas muestras cognitivas, mientras que la mayoría contribuye de manera marginal. Basándonos en esta idea, proponemos un nuevo paradigma de selección de datos denominado Potencial de Activación del Razonamiento (RAP, por sus siglas en inglés), que identifica las muestras cognitivas estimando el potencial de cada muestra para estimular un razonamiento multimodal genuino mediante dos estimadores complementarios: 1) el Estimador de Discrepancia Causal (CDE), basado en el principio del modelo de resultados potenciales, que elimina muestras que dependen excesivamente de conocimientos previos lingüísticos comparando las salidas entre entradas multimodales y solo de texto; 2) el Estimador de Confianza de Atención (ACE), que aprovecha la autoatención a nivel de tokens para descartar muestras dominadas por tokens irrelevantes pero sobreenfatizados en etapas intermedias de razonamiento. Además, introducimos un Módulo de Reemplazo Sensible a la Dificultad (DRM) para sustituir instancias triviales por otras cognitivamente desafiantes, asegurando así la complejidad necesaria para un razonamiento multimodal robusto. Los experimentos en seis conjuntos de datos muestran que nuestro método RAP logra consistentemente un rendimiento superior utilizando solo el 9.3% de los datos de entrenamiento, mientras reduce los costos computacionales en más del 43%. Nuestro código está disponible en https://github.com/Leo-ssl/RAP.
English
While multi-modal large language models (MLLMs) have made significant
progress in complex reasoning tasks via reinforcement learning, it is commonly
believed that extensive training data is necessary for improving multi-modal
reasoning ability, inevitably leading to data redundancy and substantial
computational costs. However, can smaller high-value datasets match or
outperform full corpora for multi-modal reasoning in MLLMs? In this work, we
challenge this assumption through a key observation: meaningful multi-modal
reasoning is triggered by only a sparse subset of training samples, termed
cognitive samples, whereas the majority contribute marginally. Building on this
insight, we propose a novel data selection paradigm termed Reasoning Activation
Potential (RAP), which identifies cognitive samples by estimating each sample's
potential to stimulate genuine multi-modal reasoning by two complementary
estimators: 1) Causal Discrepancy Estimator (CDE) based on the potential
outcome model principle, eliminates samples that overly rely on language priors
by comparing outputs between multi-modal and text-only inputs; 2) Attention
Confidence Estimator (ACE), which exploits token-level self-attention to
discard samples dominated by irrelevant but over-emphasized tokens in
intermediate reasoning stages. Moreover, we introduce a Difficulty-aware
Replacement Module (DRM) to substitute trivial instances with cognitively
challenging ones, thereby ensuring complexity for robust multi-modal reasoning.
Experiments on six datasets show that our RAP method consistently achieves
superior performance using only 9.3% of the training data, while reducing
computational costs by over 43%. Our code is available at
https://github.com/Leo-ssl/RAP.