Verdade nos Poucos: Seleção de Dados de Alto Valor para Raciocínio Multi-Modal Eficiente
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning
June 5, 2025
Autores: Shenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu
cs.AI
Resumo
Embora os modelos de linguagem multimodal de grande escala (MLLMs) tenham feito progressos significativos em tarefas de raciocínio complexo por meio de aprendizado por reforço, acredita-se comumente que dados de treinamento extensos são necessários para melhorar a capacidade de raciocínio multimodal, o que inevitavelmente leva à redundância de dados e a custos computacionais substanciais. No entanto, conjuntos de dados menores e de alto valor podem igualar ou superar corpora completos para o raciocínio multimodal em MLLMs? Neste trabalho, desafiamos essa suposição por meio de uma observação crucial: o raciocínio multimodal significativo é desencadeado apenas por um subconjunto esparso de amostras de treinamento, denominadas amostras cognitivas, enquanto a maioria contribui marginalmente. Com base nessa percepção, propomos um novo paradigma de seleção de dados denominado Potencial de Ativação de Raciocínio (RAP), que identifica amostras cognitivas estimando o potencial de cada amostra para estimular o raciocínio multimodal genuíno por meio de dois estimadores complementares: 1) o Estimador de Discrepância Causal (CDE), baseado no princípio do modelo de resultado potencial, elimina amostras que dependem excessivamente de prioridades linguísticas comparando saídas entre entradas multimodais e apenas de texto; 2) o Estimador de Confiança de Atenção (ACE), que explora a autoatenção em nível de token para descartar amostras dominadas por tokens irrelevantes, mas superenfatizados, em estágios intermediários de raciocínio. Além disso, introduzimos um Módulo de Substituição Sensível à Dificuldade (DRM) para substituir instâncias triviais por outras cognitivamente desafiadoras, garantindo assim complexidade para um raciocínio multimodal robusto. Experimentos em seis conjuntos de dados mostram que nosso método RAP alcança consistentemente desempenho superior usando apenas 9,3% dos dados de treinamento, enquanto reduz os custos computacionais em mais de 43%. Nosso código está disponível em https://github.com/Leo-ssl/RAP.
English
While multi-modal large language models (MLLMs) have made significant
progress in complex reasoning tasks via reinforcement learning, it is commonly
believed that extensive training data is necessary for improving multi-modal
reasoning ability, inevitably leading to data redundancy and substantial
computational costs. However, can smaller high-value datasets match or
outperform full corpora for multi-modal reasoning in MLLMs? In this work, we
challenge this assumption through a key observation: meaningful multi-modal
reasoning is triggered by only a sparse subset of training samples, termed
cognitive samples, whereas the majority contribute marginally. Building on this
insight, we propose a novel data selection paradigm termed Reasoning Activation
Potential (RAP), which identifies cognitive samples by estimating each sample's
potential to stimulate genuine multi-modal reasoning by two complementary
estimators: 1) Causal Discrepancy Estimator (CDE) based on the potential
outcome model principle, eliminates samples that overly rely on language priors
by comparing outputs between multi-modal and text-only inputs; 2) Attention
Confidence Estimator (ACE), which exploits token-level self-attention to
discard samples dominated by irrelevant but over-emphasized tokens in
intermediate reasoning stages. Moreover, we introduce a Difficulty-aware
Replacement Module (DRM) to substitute trivial instances with cognitively
challenging ones, thereby ensuring complexity for robust multi-modal reasoning.
Experiments on six datasets show that our RAP method consistently achieves
superior performance using only 9.3% of the training data, while reducing
computational costs by over 43%. Our code is available at
https://github.com/Leo-ssl/RAP.