Истина в малом: выбор высокоценных данных для эффективного мультимодального рассуждения
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning
June 5, 2025
Авторы: Shenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu
cs.AI
Аннотация
Хотя мультимодальные крупные языковые модели (MLLMs) достигли значительного прогресса в задачах сложного рассуждения с помощью обучения с подкреплением, широко распространено мнение, что для улучшения мультимодальных способностей к рассуждению необходимы обширные обучающие данные, что неизбежно приводит к избыточности данных и значительным вычислительным затратам. Однако могут ли меньшие по объему, но высококачественные наборы данных сравниться или превзойти полные корпуса для мультимодального рассуждения в MLLMs? В данной работе мы подвергаем сомнению это предположение, основываясь на ключевом наблюдении: значимое мультимодальное рассуждение активируется лишь редким подмножеством обучающих выборок, называемых когнитивными выборками, тогда как большинство вносят минимальный вклад. Опираясь на это понимание, мы предлагаем новую парадигму отбора данных, названную Потенциалом Активации Рассуждения (Reasoning Activation Potential, RAP), которая идентифицирует когнитивные выборки, оценивая потенциал каждой выборки стимулировать подлинное мультимодальное рассуждение с помощью двух взаимодополняющих оценщиков: 1) Оценщик Каузального Расхождения (Causal Discrepancy Estimator, CDE), основанный на принципе модели потенциальных исходов, исключает выборки, чрезмерно зависящие от языковых априори, путем сравнения выходов между мультимодальными и текстовыми входами; 2) Оценщик Уверенности Внимания (Attention Confidence Estimator, ACE), который использует токен-уровневое самовнимание для отбрасывания выборок, доминируемых нерелевантными, но чрезмерно акцентированными токенами на промежуточных этапах рассуждения. Кроме того, мы вводим Модуль Замены с Учетом Сложности (Difficulty-aware Replacement Module, DRM) для замены тривиальных примеров на когнитивно сложные, тем самым обеспечивая необходимую сложность для устойчивого мультимодального рассуждения. Эксперименты на шести наборах данных показывают, что наш метод RAP стабильно достигает превосходных результатов, используя лишь 9,3% обучающих данных, при этом сокращая вычислительные затраты более чем на 43%. Наш код доступен по адресу https://github.com/Leo-ssl/RAP.
English
While multi-modal large language models (MLLMs) have made significant
progress in complex reasoning tasks via reinforcement learning, it is commonly
believed that extensive training data is necessary for improving multi-modal
reasoning ability, inevitably leading to data redundancy and substantial
computational costs. However, can smaller high-value datasets match or
outperform full corpora for multi-modal reasoning in MLLMs? In this work, we
challenge this assumption through a key observation: meaningful multi-modal
reasoning is triggered by only a sparse subset of training samples, termed
cognitive samples, whereas the majority contribute marginally. Building on this
insight, we propose a novel data selection paradigm termed Reasoning Activation
Potential (RAP), which identifies cognitive samples by estimating each sample's
potential to stimulate genuine multi-modal reasoning by two complementary
estimators: 1) Causal Discrepancy Estimator (CDE) based on the potential
outcome model principle, eliminates samples that overly rely on language priors
by comparing outputs between multi-modal and text-only inputs; 2) Attention
Confidence Estimator (ACE), which exploits token-level self-attention to
discard samples dominated by irrelevant but over-emphasized tokens in
intermediate reasoning stages. Moreover, we introduce a Difficulty-aware
Replacement Module (DRM) to substitute trivial instances with cognitively
challenging ones, thereby ensuring complexity for robust multi-modal reasoning.
Experiments on six datasets show that our RAP method consistently achieves
superior performance using only 9.3% of the training data, while reducing
computational costs by over 43%. Our code is available at
https://github.com/Leo-ssl/RAP.