CodePercept : Perception visuelle des STEM ancrée dans le code pour les MLLM

Résumé

Lorsque les MLLM échouent en raisonnement visuel pour les sciences, technologies, ingénierie et mathématiques (STEM), une question fondamentale se pose : est-ce dû à des déficiences perceptuelles ou à des limitations de raisonnement ? Par une analyse systématique de mise à l'échelle qui fait évoluer indépendamment les composantes de perception et de raisonnement, nous mettons en lumière un constat crucial : augmenter l'échelle de la perception surpasse systématiquement l'augmentation de l'échelle du raisonnement. Cela révèle que la perception est le véritable levier limitant le raisonnement visuel STEM actuel. Motivés par cette observation, nos travaux se concentrent sur l'amélioration systématique des capacités perceptuelles des MLLM en établissant le code comme un puissant médium perceptuel – le code exécutable fournit une sémantique précise qui s'aligne naturellement avec la nature structurée des visuels STEM. Plus précisément, nous construisons ICC-1M, un jeu de données à grande échelle comprenant 1 million de triplets Image-Légende-Code qui matérialise ce paradigme du code-comme-perception via deux approches complémentaires : (1) la Génération de Légendes Ancrée sur le Code considère le code exécutable comme vérité terrain pour les légendes d'images, éliminant les hallucinations inhérentes aux méthodes existantes de distillation des connaissances ; (2) la Traduction d'Image STEM en Code incite les modèles à générer du code de reconstruction, atténuant l'ambiguïté du langage naturel pour l'amélioration perceptuelle. Pour valider ce paradigme, nous introduisons en outre STEM2Code-Eval, une nouvelle référence d'évaluation qui mesure directement la perception visuelle dans les domaines STEM. Contrairement aux travaux existants qui s'appuient sur la précision de résolution de problèmes comme proxy ne mesurant que la compréhension pertinente au problème, notre référence exige une compréhension visuelle complète via la génération de code exécutable pour la reconstruction d'image, fournissant une évaluation déterministe et vérifiable. Le code est disponible à l'adresse https://github.com/TongkunGuan/Qwen-CodePercept.

English

When MLLMs fail at Science, Technology, Engineering, and Mathematics (STEM) visual reasoning, a fundamental question arises: is it due to perceptual deficiencies or reasoning limitations? Through systematic scaling analysis that independently scales perception and reasoning components, we uncover a critical insight: scaling perception consistently outperforms scaling reasoning. This reveals perception as the true lever limiting current STEM visual reasoning. Motivated by this insight, our work focuses on systematically enhancing the perception capabilities of MLLMs by establishing code as a powerful perceptual medium--executable code provides precise semantics that naturally align with the structured nature of STEM visuals. Specifically, we construct ICC-1M, a large-scale dataset comprising 1M Image-Caption-Code triplets that materializes this code-as-perception paradigm through two complementary approaches: (1) Code-Grounded Caption Generation treats executable code as ground truth for image captions, eliminating the hallucinations inherent in existing knowledge distillation methods; (2) STEM Image-to-Code Translation prompts models to generate reconstruction code, mitigating the ambiguity of natural language for perception enhancement. To validate this paradigm, we further introduce STEM2Code-Eval, a novel benchmark that directly evaluates visual perception in STEM domains. Unlike existing work relying on problem-solving accuracy as a proxy that only measures problem-relevant understanding, our benchmark requires comprehensive visual comprehension through executable code generation for image reconstruction, providing deterministic and verifiable assessment. Code is available at https://github.com/TongkunGuan/Qwen-CodePercept.

CodePercept : Perception visuelle des STEM ancrée dans le code pour les MLLM

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Résumé

Support