CodePercept: Percepção Visual STEM Baseada em Código para MLLMs

Resumo

Quando os MLLMs falham no raciocínio visual em Ciência, Tecnologia, Engenharia e Matemática (STEM), surge uma questão fundamental: isso se deve a deficiências perceptivas ou limitações de raciocínio? Através de uma análise sistemática de escalonamento que dimensiona independentemente os componentes de percepção e raciocínio, descobrimos um insight crítico: escalonar a percepção supera consistentemente o escalonamento do raciocínio. Isso revela a percepção como o verdadeiro limitador do atual raciocínio visual em STEM. Motivados por essa descoberta, nosso trabalho foca no aprimoramento sistemático das capacidades perceptivas dos MLLMs, estabelecendo o código como um meio perceptual poderoso – o código executável fornece semântica precisa que se alinha naturalmente com a natureza estruturada dos visuais STEM. Especificamente, construímos o ICC-1M, um conjunto de dados em larga escala composto por 1 milhão de triplas Imagem-Legenda-Código que materializa este paradigma de código-como-percepção através de duas abordagens complementares: (1) A Geração de Legendas com Base em Código trata o código executável como verdade fundamental para legendas de imagens, eliminando as alucinações inerentes aos métodos existentes de destilação de conhecimento; (2) A Tradução de Imagens STEM para Código solicita que os modelos gerem código de reconstrução, mitigando a ambiguidade da linguagem natural para o aprimoramento perceptual. Para validar este paradigma, introduzimos ainda o STEM2Code-Eval, um novo benchmark que avalia diretamente a percepção visual em domínios STEM. Diferente dos trabalhos existentes que dependem da precisão na resolução de problemas como proxy – que mede apenas a compreensão relevante para o problema –, nosso benchmark exige compreensão visual abrangente através da geração de código executável para reconstrução de imagens, proporcionando uma avaliação determinística e verificável. O código está disponível em https://github.com/TongkunGuan/Qwen-CodePercept.

English

When MLLMs fail at Science, Technology, Engineering, and Mathematics (STEM) visual reasoning, a fundamental question arises: is it due to perceptual deficiencies or reasoning limitations? Through systematic scaling analysis that independently scales perception and reasoning components, we uncover a critical insight: scaling perception consistently outperforms scaling reasoning. This reveals perception as the true lever limiting current STEM visual reasoning. Motivated by this insight, our work focuses on systematically enhancing the perception capabilities of MLLMs by establishing code as a powerful perceptual medium--executable code provides precise semantics that naturally align with the structured nature of STEM visuals. Specifically, we construct ICC-1M, a large-scale dataset comprising 1M Image-Caption-Code triplets that materializes this code-as-perception paradigm through two complementary approaches: (1) Code-Grounded Caption Generation treats executable code as ground truth for image captions, eliminating the hallucinations inherent in existing knowledge distillation methods; (2) STEM Image-to-Code Translation prompts models to generate reconstruction code, mitigating the ambiguity of natural language for perception enhancement. To validate this paradigm, we further introduce STEM2Code-Eval, a novel benchmark that directly evaluates visual perception in STEM domains. Unlike existing work relying on problem-solving accuracy as a proxy that only measures problem-relevant understanding, our benchmark requires comprehensive visual comprehension through executable code generation for image reconstruction, providing deterministic and verifiable assessment. Code is available at https://github.com/TongkunGuan/Qwen-CodePercept.

CodePercept: Percepção Visual STEM Baseada em Código para MLLMs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Resumo

Support