CodePercept: MLLMのためのコードに基づく視覚的STEM知覚
CodePercept: Code-Grounded Visual STEM Perception for MLLMs
March 11, 2026
著者: Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang
cs.AI
要旨
MLLMが科学・技術・工学・数学(STEM)分野の視覚的推論に失敗する際、根本的な疑問が生じる:それは知覚の欠陥によるものか、それとも推論能力の限界によるものか?本論文では、知覚と推論の構成要素を独立にスケーリングする体系的な分析を通じて、重要な知見を得た:知覚のスケーリングは、一貫して推論のスケーリングを上回る性能を示す。これは、現在のSTEM視覚推論を制限している真の要因が知覚であることを明らかにしている。この知見に動機づけられ、我々の研究はコードを強力な知覚媒体として確立することで、MLLMの知覚能力を体系的に強化することに焦点を当てる。実行可能なコードは、STEMビジュアルの構造化された性質と自然に整合する精密な意味論を提供する。具体的には、大規模データセットICC-1Mを構築した。これは100万の画像-キャプション-コードの三つ組からなり、以下の2つの相補的アプローチを通じてこの「コードとしての知覚」パラダイムを具体化する:(1) コード接地型キャプション生成は、実行可能なコードを画像キャプションのグランドトゥルースとして扱い、既存の知識蒸留手法に内在する虚構を排除する;(2) STEM画像からコードへの変換は、モデルに再構成コードの生成を促し、知覚強化のための自然言語の曖昧さを軽減する。このパラダイムを検証するため、STEM分野における視覚知覚を直接評価する新しいベンチマークSTEM2Code-Evalをさらに導入する。問題解決の正答率を代理指標とし問題関連の理解のみを測る既存研究とは異なり、我々のベンチマークは画像再現のための実行可能コード生成を通じて包括的な視覚的理解を要求し、決定的かつ検証可能な評価を提供する。コードはhttps://github.com/TongkunGuan/Qwen-CodePercept で公開されている。
English
When MLLMs fail at Science, Technology, Engineering, and Mathematics (STEM) visual reasoning, a fundamental question arises: is it due to perceptual deficiencies or reasoning limitations? Through systematic scaling analysis that independently scales perception and reasoning components, we uncover a critical insight: scaling perception consistently outperforms scaling reasoning. This reveals perception as the true lever limiting current STEM visual reasoning. Motivated by this insight, our work focuses on systematically enhancing the perception capabilities of MLLMs by establishing code as a powerful perceptual medium--executable code provides precise semantics that naturally align with the structured nature of STEM visuals. Specifically, we construct ICC-1M, a large-scale dataset comprising 1M Image-Caption-Code triplets that materializes this code-as-perception paradigm through two complementary approaches: (1) Code-Grounded Caption Generation treats executable code as ground truth for image captions, eliminating the hallucinations inherent in existing knowledge distillation methods; (2) STEM Image-to-Code Translation prompts models to generate reconstruction code, mitigating the ambiguity of natural language for perception enhancement. To validate this paradigm, we further introduce STEM2Code-Eval, a novel benchmark that directly evaluates visual perception in STEM domains. Unlike existing work relying on problem-solving accuracy as a proxy that only measures problem-relevant understanding, our benchmark requires comprehensive visual comprehension through executable code generation for image reconstruction, providing deterministic and verifiable assessment. Code is available at https://github.com/TongkunGuan/Qwen-CodePercept.