ChatPaper.aiChatPaper

SeePhys Pro:物理推論におけるマルチモーダルRLVRのモダリティ転移とブラインドトレーニング効果の診断

SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning

May 10, 2026
著者: Kun Xiang, Terry Jingchen Zhang, Zirong Liu, Bokai Zhou, Yueling Tang, Junjie Yu, Jiacong Lu, Shangrui Huang, Heng Li, Likui Zhang, Kunkun Liu, Changzheng Zhang, Yangle Fang, Boqiang Guo, Hui-Ling Zhen, Dandan Tu, Yinya Huang, Xiaodan Liang
cs.AI

要旨

本稿では、重要な情報がテキストから段階的に画像へ移行する際に、モデルが同一の推論能力を保持するかどうかを検証する、細粒度なモダリティ遷移ベンチマークであるSeePhys Proを紹介する。単一の入力形式を評価する標準的な視覚必須ベンチマークとは異なり、SeePhys Proでは各問題に対して、視覚要素が段階的に増加する4つの意味的に整合したバリアントを用意している。評価の結果、最新のフロンティアモデルは表現不変の推論器には程遠く、情報が言語から図へ移行するにつれて平均的な性能が低下し、特に視覚変数の接地が最も重大なボトルネックであることが示された。この推論時脆弱性に動機づけられ、我々はさらに多モーダルRLVR向けの大規模訓練コーパスを開発し、診断的制御としてブラインド訓練を実施した。その結果、すべての訓練画像をマスクしたRLでも、マスクされていない検証セットの性能を向上させ得ることが判明した。この効果を分析するため、テキスト削除、画像マスク率、フォーマット飽和といった制御条件を導入したところ、かかる改善は有効な視覚的証拠ではなく、残存するテキスト的手がかりや分布的手がかりに起因し得ることが示唆された。我々の結果は、多モーダル推論の評価においては、最終解答の正解率だけでなく、モダリティ遷移下でのロバスト性や、改善が課題に不可欠な視覚的証拠に依存しているかを検証する診断的手法が重要であることを浮き彫りにしている。
English
We introduce SeePhys Pro, a fine-grained modality transfer benchmark that studies whether models preserve the same reasoning capability when critical information is progressively transferred from text to image. Unlike standard vision-essential benchmarks that evaluate a single input form, SeePhys Pro features four semantically aligned variants for each problem with progressively increasing visual elements. Our evaluation shows that current frontier models are far from representation-invariant reasoners: performance degrades on average as information moves from language to diagrams, with visual variable grounding as the most critical bottleneck. Motivated by this inference-time fragility, we further develop large training corpora for multimodal RLVR and use blind training as a diagnostic control, finding that RL with all training images masked can still improve performance on unmasked validation sets. To analyze this effect, text-deletion, image-mask-rate, and format-saturation controls suggest that such gains can arise from residual textual and distributional cues rather than valid visual evidence. Our results highlight the need to evaluate multimodal reasoning not only by final-answer accuracy, but also by robustness under modality transfer and by diagnostics that test whether improvements rely on task-critical visual evidence.
PDF111May 14, 2026