CodePercept: Percezione STEM Visiva Basata su Codice per MLLM
CodePercept: Code-Grounded Visual STEM Perception for MLLMs
March 11, 2026
Autori: Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang
cs.AI
Abstract
Quando i modelli linguistici multimodali (MLLM) falliscono nel ragionamento visivo in ambito STEM (Scienza, Tecnologia, Ingegneria e Matematica), sorge una domanda fondamentale: la causa risiede in carenze percettive o in limitazioni del ragionamento? Attraverso un'analisi sistematica del scaling che modifica indipendentemente le componenti percettive e di ragionamento, emerge un'osservazione cruciale: potenziare la percezione supera costantemente il potenziamento del ragionamento. Ciò rivela la percezione come il vero fattore limitante l'attuale ragionamento visivo STEM. Motivati da questa intuizione, il nostro lavoro si concentra sul potenziamento sistematico delle capacità percettive degli MLLM, stabilendo il codice come mezzo percettivo potente: il codice eseguibile fornisce una semantica precisa che si allinea naturalmente con la natura strutturata delle immagini STEM. Nello specifico, costruiamo ICC-1M, un dataset su larga scala comprendente 1 milione di triplette Immagine-Didascalia-Codice che concretizza questo paradigma del codice-come-percezione attraverso due approcci complementari: (1) la Generazione di Didascalie Ancorate al Codice tratta il codice eseguibile come verità fondamentale per le didascalie, eliminando le allucinazioni intrinseche dei metodi esistenti di distillazione della conoscenza; (2) la Traduzione da Immagine STEM a Codice spinge i modelli a generare codice di ricostruzione, mitigando l'ambiguità del linguaggio naturale per il potenziamento percettivo. Per convalidare questo paradigma, introduciamo inoltre STEM2Code-Eval, un nuovo benchmark che valuta direttamente la percezione visiva in ambito STEM. A differenza dei lavori esistenti che si affidano all'accuratezza nella risoluzione di problemi come parametro indiretto, misurando solo la comprensione rilevante al problema, il nostro benchmark richiede una comprensione visiva completa attraverso la generazione di codice eseguibile per la ricostruzione dell'immagine, fornendo una valutazione deterministica e verificabile. Il codice è disponibile all'indirizzo https://github.com/TongkunGuan/Qwen-CodePercept.
English
When MLLMs fail at Science, Technology, Engineering, and Mathematics (STEM) visual reasoning, a fundamental question arises: is it due to perceptual deficiencies or reasoning limitations? Through systematic scaling analysis that independently scales perception and reasoning components, we uncover a critical insight: scaling perception consistently outperforms scaling reasoning. This reveals perception as the true lever limiting current STEM visual reasoning. Motivated by this insight, our work focuses on systematically enhancing the perception capabilities of MLLMs by establishing code as a powerful perceptual medium--executable code provides precise semantics that naturally align with the structured nature of STEM visuals. Specifically, we construct ICC-1M, a large-scale dataset comprising 1M Image-Caption-Code triplets that materializes this code-as-perception paradigm through two complementary approaches: (1) Code-Grounded Caption Generation treats executable code as ground truth for image captions, eliminating the hallucinations inherent in existing knowledge distillation methods; (2) STEM Image-to-Code Translation prompts models to generate reconstruction code, mitigating the ambiguity of natural language for perception enhancement. To validate this paradigm, we further introduce STEM2Code-Eval, a novel benchmark that directly evaluates visual perception in STEM domains. Unlike existing work relying on problem-solving accuracy as a proxy that only measures problem-relevant understanding, our benchmark requires comprehensive visual comprehension through executable code generation for image reconstruction, providing deterministic and verifiable assessment. Code is available at https://github.com/TongkunGuan/Qwen-CodePercept.