Verdade nos Poucos: Seleção de Dados de Alto Valor para Raciocínio Multi-Modal Eficiente

Resumo

Embora os modelos de linguagem multimodal de grande escala (MLLMs) tenham feito progressos significativos em tarefas de raciocínio complexo por meio de aprendizado por reforço, acredita-se comumente que dados de treinamento extensos são necessários para melhorar a capacidade de raciocínio multimodal, o que inevitavelmente leva à redundância de dados e a custos computacionais substanciais. No entanto, conjuntos de dados menores e de alto valor podem igualar ou superar corpora completos para o raciocínio multimodal em MLLMs? Neste trabalho, desafiamos essa suposição por meio de uma observação crucial: o raciocínio multimodal significativo é desencadeado apenas por um subconjunto esparso de amostras de treinamento, denominadas amostras cognitivas, enquanto a maioria contribui marginalmente. Com base nessa percepção, propomos um novo paradigma de seleção de dados denominado Potencial de Ativação de Raciocínio (RAP), que identifica amostras cognitivas estimando o potencial de cada amostra para estimular o raciocínio multimodal genuíno por meio de dois estimadores complementares: 1) o Estimador de Discrepância Causal (CDE), baseado no princípio do modelo de resultado potencial, elimina amostras que dependem excessivamente de prioridades linguísticas comparando saídas entre entradas multimodais e apenas de texto; 2) o Estimador de Confiança de Atenção (ACE), que explora a autoatenção em nível de token para descartar amostras dominadas por tokens irrelevantes, mas superenfatizados, em estágios intermediários de raciocínio. Além disso, introduzimos um Módulo de Substituição Sensível à Dificuldade (DRM) para substituir instâncias triviais por outras cognitivamente desafiadoras, garantindo assim complexidade para um raciocínio multimodal robusto. Experimentos em seis conjuntos de dados mostram que nosso método RAP alcança consistentemente desempenho superior usando apenas 9,3% dos dados de treinamento, enquanto reduz os custos computacionais em mais de 43%. Nosso código está disponível em https://github.com/Leo-ssl/RAP.

English

While multi-modal large language models (MLLMs) have made significant progress in complex reasoning tasks via reinforcement learning, it is commonly believed that extensive training data is necessary for improving multi-modal reasoning ability, inevitably leading to data redundancy and substantial computational costs. However, can smaller high-value datasets match or outperform full corpora for multi-modal reasoning in MLLMs? In this work, we challenge this assumption through a key observation: meaningful multi-modal reasoning is triggered by only a sparse subset of training samples, termed cognitive samples, whereas the majority contribute marginally. Building on this insight, we propose a novel data selection paradigm termed Reasoning Activation Potential (RAP), which identifies cognitive samples by estimating each sample's potential to stimulate genuine multi-modal reasoning by two complementary estimators: 1) Causal Discrepancy Estimator (CDE) based on the potential outcome model principle, eliminates samples that overly rely on language priors by comparing outputs between multi-modal and text-only inputs; 2) Attention Confidence Estimator (ACE), which exploits token-level self-attention to discard samples dominated by irrelevant but over-emphasized tokens in intermediate reasoning stages. Moreover, we introduce a Difficulty-aware Replacement Module (DRM) to substitute trivial instances with cognitively challenging ones, thereby ensuring complexity for robust multi-modal reasoning. Experiments on six datasets show that our RAP method consistently achieves superior performance using only 9.3% of the training data, while reducing computational costs by over 43%. Our code is available at https://github.com/Leo-ssl/RAP.

Verdade nos Poucos: Seleção de Dados de Alto Valor para Raciocínio Multi-Modal Eficiente

Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning

Resumo

Support