CodePercept: Percepción Visual STEM Fundamentada en Código para MLLMs

Resumen

Cuando los MLLM fallan en el razonamiento visual de Ciencia, Tecnología, Ingeniería y Matemáticas (STEM), surge una pregunta fundamental: ¿se debe a deficiencias perceptivas o a limitaciones de razonamiento? Mediante un análisis sistemático de escalado que incrementa de forma independiente los componentes de percepción y razonamiento, descubrimos una conclusión crítica: escalar la percepción supera consistentemente a escalar el razonamiento. Esto revela que la percepción es el verdadero factor limitante en el razonamiento visual STEM actual. Motivados por esta idea, nuestro trabajo se centra en mejorar sistemáticamente las capacidades perceptivas de los MLLM estableciendo el código como un medio perceptual poderoso: el código ejecutable proporciona una semántica precisa que se alinea naturalmente con la naturaleza estructurada de los elementos visuales STEM. Específicamente, construimos ICC-1M, un conjunto de datos a gran escala que comprende 1 millón de tripletas Imagen-Descripción-Código, materializando este paradigma de código-como-percepción mediante dos enfoques complementarios: (1) la Generación de Descripciones Ancladas en Código trata el código ejecutable como verdad fundamental para las descripciones de imágenes, eliminando las alucinaciones inherentes a los métodos existentes de destilación de conocimiento; (2) la Traducción de Imágenes STEM a Código impulsa a los modelos a generar código de reconstrucción, mitigando la ambigüedad del lenguaje natural para la mejora perceptiva. Para validar este paradigma, presentamos además STEM2Code-Eval, un nuevo benchmark que evalúa directamente la percepción visual en dominios STEM. A diferencia de los trabajos existentes que dependen de la precisión en la resolución de problemas como proxy, que solo mide la comprensión relevante para el problema, nuestro benchmark requiere una comprensión visual integral mediante la generación de código ejecutable para la reconstrucción de imágenes, proporcionando una evaluación determinista y verificable. El código está disponible en https://github.com/TongkunGuan/Qwen-CodePercept.

English

When MLLMs fail at Science, Technology, Engineering, and Mathematics (STEM) visual reasoning, a fundamental question arises: is it due to perceptual deficiencies or reasoning limitations? Through systematic scaling analysis that independently scales perception and reasoning components, we uncover a critical insight: scaling perception consistently outperforms scaling reasoning. This reveals perception as the true lever limiting current STEM visual reasoning. Motivated by this insight, our work focuses on systematically enhancing the perception capabilities of MLLMs by establishing code as a powerful perceptual medium--executable code provides precise semantics that naturally align with the structured nature of STEM visuals. Specifically, we construct ICC-1M, a large-scale dataset comprising 1M Image-Caption-Code triplets that materializes this code-as-perception paradigm through two complementary approaches: (1) Code-Grounded Caption Generation treats executable code as ground truth for image captions, eliminating the hallucinations inherent in existing knowledge distillation methods; (2) STEM Image-to-Code Translation prompts models to generate reconstruction code, mitigating the ambiguity of natural language for perception enhancement. To validate this paradigm, we further introduce STEM2Code-Eval, a novel benchmark that directly evaluates visual perception in STEM domains. Unlike existing work relying on problem-solving accuracy as a proxy that only measures problem-relevant understanding, our benchmark requires comprehensive visual comprehension through executable code generation for image reconstruction, providing deterministic and verifiable assessment. Code is available at https://github.com/TongkunGuan/Qwen-CodePercept.

CodePercept: Percepción Visual STEM Fundamentada en Código para MLLMs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Resumen

Support