SeePhys Pro: 물리 추론을 위한 멀티모달 RLVR에서의 모달리티 전이 및 블라인드 훈련 효과 진단
SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning
May 10, 2026
저자: Kun Xiang, Terry Jingchen Zhang, Zirong Liu, Bokai Zhou, Yueling Tang, Junjie Yu, Jiacong Lu, Shangrui Huang, Heng Li, Likui Zhang, Kunkun Liu, Changzheng Zhang, Yangle Fang, Boqiang Guo, Hui-Ling Zhen, Dandan Tu, Yinya Huang, Xiaodan Liang
cs.AI
초록
우리는 SeePhys Pro를 소개한다. 이는 중요한 정보가 텍스트에서 이미지로 점진적으로 전이될 때 모델이 동일한 추론 능력을 유지하는지 연구하는 세부 조정 양식 전이 벤치마크이다. 단일 입력 형태를 평가하는 표준 시각 중심 벤치마크와 달리, SeePhys Pro는 각 문제에 대해 점진적으로 시각적 요소가 증가하는 네 가지 의미적으로 정렬된 변형을 제공한다. 평가 결과, 현재 최첨단 모델은 표현 불변 추론자와는 거리가 멀며, 정보가 언어에서 다이어그램으로 이동함에 따라 평균적으로 성능이 저하되며, 시각적 변수 근거가 가장 중요한 병목 지점임을 보여준다. 이러한 추론 시점의 취약성에 착안하여, 우리는 다중 모달 RLVR을 위한 대규모 훈련 코퍼스를 추가로 개발하고 블라인드 훈련을 진단적 통제 수단으로 활용하여, 모든 훈련 이미지를 마스킹한 RL이 마스킹되지 않은 검증 세트에서도 여전히 성능을 향상시킬 수 있음을 발견했다. 이 효과를 분석하기 위해 텍스트 삭제, 이미지 마스크 비율, 형식 포화 제어를 통해 이러한 향상이 유효한 시각적 증거보다는 잔여 텍스트 및 분포적 단서에서 비롯될 수 있음을 시사한다. 우리의 결과는 다중 모달 추론을 최종 답변 정확도뿐만 아니라 양식 전이 하에서의 견고성과 개선이 과제에 중요한 시각적 증거에 의존하는지 테스트하는 진단을 통해 평가해야 할 필요성을 강조한다.
English
We introduce SeePhys Pro, a fine-grained modality transfer benchmark that studies whether models preserve the same reasoning capability when critical information is progressively transferred from text to image. Unlike standard vision-essential benchmarks that evaluate a single input form, SeePhys Pro features four semantically aligned variants for each problem with progressively increasing visual elements. Our evaluation shows that current frontier models are far from representation-invariant reasoners: performance degrades on average as information moves from language to diagrams, with visual variable grounding as the most critical bottleneck. Motivated by this inference-time fragility, we further develop large training corpora for multimodal RLVR and use blind training as a diagnostic control, finding that RL with all training images masked can still improve performance on unmasked validation sets. To analyze this effect, text-deletion, image-mask-rate, and format-saturation controls suggest that such gains can arise from residual textual and distributional cues rather than valid visual evidence. Our results highlight the need to evaluate multimodal reasoning not only by final-answer accuracy, but also by robustness under modality transfer and by diagnostics that test whether improvements rely on task-critical visual evidence.