CodePercept: Code-basierte visuelle MINT-Wahrnehmung für MLLMs

Zusammenfassung

Wenn MLLMs bei visuellen Aufgaben in den Bereichen Naturwissenschaften, Technologie, Ingenieurwesen und Mathematik (STEM) versagen, stellt sich eine grundlegende Frage: Liegt dies an Wahrnehmungsdefiziten oder an Einschränkungen im logischen Schlussfolgern? Durch eine systematische Skalierungsanalyse, bei der Wahrnehmungs- und Reasoning-Komponenten unabhängig voneinander skaliert werden, gewinnen wir eine entscheidende Erkenntnis: Die Skalierung der Wahrnehmung übertrifft durchgängig die Skalierung des Reasonings. Dies zeigt, dass die Wahrnehmung der eigentliche begrenzende Faktor für die aktuelle visuelle STEM-Reasoning-Fähigkeit ist. Motiviert durch diese Erkenntnis konzentriert sich unsere Arbeit auf die systematische Verbesserung der Wahrnehmungsfähigkeiten von MLLMs, indem Code als leistungsstarkes Wahrnehmungsmedium etabliert wird – ausführbarer Code bietet präzise Semantik, die sich natürlich mit der strukturierten Natur von STEM-Visualisierungen deckt. Konkret konstruieren wir ICC-1M, einen großen Datensatz, der 1M Bild-Beschreibung-Code-Tripel umfasst und dieses Code-als-Wahrnehmung-Paradigma durch zwei komplementäre Ansätze realisiert: (1) Code-gestützte Beschreibungserzeugung behandelt ausführbaren Code als Grundwahrheit für Bildbeschreibungen und eliminiert die Halluzinationen, die bestehenden Wissensdistillationsmethoden inhärent sind; (2) STEM-Bild-zu-Code-Übersetzung veranlasst Modelle, Rekonstruktionscode zu generieren, und mildert so die Mehrdeutigkeit natürlicher Sprache zur Wahrnehmungsverbesserung. Um dieses Paradigma zu validieren, führen wir weiterhin STEM2Code-Eval ein, einen neuartigen Benchmark, der die visuelle Wahrnehmung in STEM-Domänen direkt evaluiert. Im Gegensatz zu bestehenden Arbeiten, die sich auf die Problemlösungsgenauigkeit als Stellvertretermetrik stützen, die nur das aufgabenrelevante Verständnis misst, erfordert unser Benchmark ein umfassendes visuelles Verständnis durch die Generierung von ausführbarem Code zur Bildrekonstruktion und bietet so eine deterministische und verifizierbare Bewertung. Code ist verfügbar unter https://github.com/TongkunGuan/Qwen-CodePercept.

English

When MLLMs fail at Science, Technology, Engineering, and Mathematics (STEM) visual reasoning, a fundamental question arises: is it due to perceptual deficiencies or reasoning limitations? Through systematic scaling analysis that independently scales perception and reasoning components, we uncover a critical insight: scaling perception consistently outperforms scaling reasoning. This reveals perception as the true lever limiting current STEM visual reasoning. Motivated by this insight, our work focuses on systematically enhancing the perception capabilities of MLLMs by establishing code as a powerful perceptual medium--executable code provides precise semantics that naturally align with the structured nature of STEM visuals. Specifically, we construct ICC-1M, a large-scale dataset comprising 1M Image-Caption-Code triplets that materializes this code-as-perception paradigm through two complementary approaches: (1) Code-Grounded Caption Generation treats executable code as ground truth for image captions, eliminating the hallucinations inherent in existing knowledge distillation methods; (2) STEM Image-to-Code Translation prompts models to generate reconstruction code, mitigating the ambiguity of natural language for perception enhancement. To validate this paradigm, we further introduce STEM2Code-Eval, a novel benchmark that directly evaluates visual perception in STEM domains. Unlike existing work relying on problem-solving accuracy as a proxy that only measures problem-relevant understanding, our benchmark requires comprehensive visual comprehension through executable code generation for image reconstruction, providing deterministic and verifiable assessment. Code is available at https://github.com/TongkunGuan/Qwen-CodePercept.

CodePercept: Code-basierte visuelle MINT-Wahrnehmung für MLLMs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Zusammenfassung

Support