ChatPaper.aiChatPaper

視覚の重要性:単純な視覚的摂動が多モード数学推論を向上させる可能性

Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning

June 11, 2025
著者: Yuting Li, Lai Wei, Kaipeng Zheng, Jingyuan Huang, Linghe Kong, Lichao Sun, Weiran Huang
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)の急速な進展にもかかわらず、視覚処理の重要性が大きく見過ごされてきた。単純でありながら示唆に富む実験において、興味深いことに、画像キャプションが提供された場合、言語のみのモデルが生の視覚入力を消費するMLLMsと同等またはそれ以上の性能を達成できることがわかった。これは、現在のMLLMsが正確な視覚記述を生成する一方で、推論中にそれらを効果的に統合できないことを示唆している。これに動機づけられ、我々はアルゴリズムの変更や追加の訓練データを必要とせずに知覚的ロバスト性を向上させる単純な視覚摂動フレームワークを提案する。我々のアプローチは、SFT、DPO、GRPOを含む既存のポストトレーニングパイプラインに容易に統合可能な3つのターゲット摂動(ディストラクタ連結、優位性保持ミックスアップ、ランダム回転)を導入する。複数のデータセットにわたる広範な実験を通じて、数学的推論性能の一貫した向上を示し、アルゴリズム変更によって達成されるものと同等の改善を実証した。さらに、視覚摂動を用いてQwen2.5-VL-7Bを訓練することで、オープンソースの7B RLチューニングモデルの中で競争力のある性能を達成した。包括的なアブレーション研究を通じて、異なる摂動戦略の有効性を分析し、各摂動タイプが視覚推論の異なる側面に独自に貢献することを明らかにした。我々の知見は、マルチモーダル数学的推論における視覚摂動の重要な役割を強調している:より良い推論は、より良い視覚から始まる。我々のコードはhttps://github.com/YutingLi0606/Vision-Mattersで公開されている。
English
Despite the rapid progress of multimodal large language models (MLLMs), they have largely overlooked the importance of visual processing. In a simple yet revealing experiment, we interestingly find that language-only models, when provided with image captions, can achieve comparable or even better performance than MLLMs that consume raw visual inputs. This suggests that current MLLMs may generate accurate visual descriptions but fail to effectively integrate them during reasoning. Motivated by this, we propose a simple visual perturbation framework that enhances perceptual robustness without requiring algorithmic modifications or additional training data. Our approach introduces three targeted perturbations: distractor concatenation, dominance-preserving mixup, and random rotation, that can be easily integrated into existing post-training pipelines including SFT, DPO, and GRPO. Through extensive experiments across multiple datasets, we demonstrate consistent improvements in mathematical reasoning performance, with gains comparable to those achieved through algorithmic changes. Additionally, we achieve competitive performance among open-source 7B RL-tuned models by training Qwen2.5-VL-7B with visual perturbation. Through comprehensive ablation studies, we analyze the effectiveness of different perturbation strategies, revealing that each perturbation type contributes uniquely to different aspects of visual reasoning. Our findings highlight the critical role of visual perturbation in multimodal mathematical reasoning: better reasoning begins with better seeing. Our code is available at https://github.com/YutingLi0606/Vision-Matters.
PDF92June 12, 2025