CodePercept: Code-Gegrond Visueel STEM-Waarneming voor MLLM's
CodePercept: Code-Grounded Visual STEM Perception for MLLMs
March 11, 2026
Auteurs: Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang
cs.AI
Samenvatting
Wanneer MLLM's falen in visueel redeneren binnen Science, Technology, Engineering en Mathematics (STEM), rijst een fundamentele vraag: komt dit door perceptuele tekortkomingen of door redeneerbeperkingen? Via een systematische schaalanalyse waarbij perceptie- en redeneercomponenten onafhankelijk worden opgeschaald, ontdekken we een cruciaal inzicht: het opschalen van perceptie presteert consistent beter dan het opschalen van redeneren. Dit onthult perceptie als de werkelijke hefboom die de huidige STEM visuele redeneervaardigheid beperkt. Gemotiveerd door dit inzicht richt ons werk zich op het systematisch verbeteren van de perceptiecapaciteiten van MLLM's door code te vestigen als een krachtig perceptiemedium – uitvoerbare code biedt precieze semantiek die natuurlijk aansluit bij de gestructureerde aard van STEM-visualisaties. Specifiek construeren we ICC-1M, een grootschalige dataset bestaande uit 1 miljoen Image-Caption-Code triplets die dit code-als-perceptie paradigma materialiseert via twee complementaire benaderingen: (1) Code-Gegronde Bijschriftgeneratie behandelt uitvoerbare code als grondwaarheid voor beeldbijschriften, waardoor de hallucinaties inherent aan bestaande kennisdistillatiemethoden worden geëlimineerd; (2) STEM Beeld-naar-Code Vertaling spoort modellen aan om reconstructiecode te genereren, waardoor de ambiguïteit van natuurlijke taal voor perceptieverbetering wordt verminderd. Om dit paradigma te valideren, introduceren we verder STEM2Code-Eval, een nieuwe benchmark die visuele perceptie in STEM-domeinen direct evalueert. In tegenstelling tot bestaand werk dat vertrouwt op nauwkeurigheid van probleemoplossing als proxy die alleen probleemrelevant begrip meet, vereist onze benchmark uitgebreid visueel begrip via de generatie van uitvoerbare code voor beeldreconstructie, wat een deterministische en verifieerbare beoordeling biedt. Code is beschikbaar op https://github.com/TongkunGuan/Qwen-CodePercept.
English
When MLLMs fail at Science, Technology, Engineering, and Mathematics (STEM) visual reasoning, a fundamental question arises: is it due to perceptual deficiencies or reasoning limitations? Through systematic scaling analysis that independently scales perception and reasoning components, we uncover a critical insight: scaling perception consistently outperforms scaling reasoning. This reveals perception as the true lever limiting current STEM visual reasoning. Motivated by this insight, our work focuses on systematically enhancing the perception capabilities of MLLMs by establishing code as a powerful perceptual medium--executable code provides precise semantics that naturally align with the structured nature of STEM visuals. Specifically, we construct ICC-1M, a large-scale dataset comprising 1M Image-Caption-Code triplets that materializes this code-as-perception paradigm through two complementary approaches: (1) Code-Grounded Caption Generation treats executable code as ground truth for image captions, eliminating the hallucinations inherent in existing knowledge distillation methods; (2) STEM Image-to-Code Translation prompts models to generate reconstruction code, mitigating the ambiguity of natural language for perception enhancement. To validate this paradigm, we further introduce STEM2Code-Eval, a novel benchmark that directly evaluates visual perception in STEM domains. Unlike existing work relying on problem-solving accuracy as a proxy that only measures problem-relevant understanding, our benchmark requires comprehensive visual comprehension through executable code generation for image reconstruction, providing deterministic and verifiable assessment. Code is available at https://github.com/TongkunGuan/Qwen-CodePercept.