CodePercept: Основанное на коде визуальное восприятие STEM для MLLM

Аннотация

Когда мультимодальные языковые модели (MLLM) демонстрируют неудачи в визуальном анализе задач STEM (естественные науки, технологии, инженерия и математика), возникает фундаментальный вопрос: связаны ли эти ошибки с недостатками восприятия или ограничениями логического вывода? Проведя системный анализ масштабирования с независимым увеличением возможностей компонентов восприятия и рассуждений, мы выявили ключевую закономерность: масштабирование восприятия последовательно превосходит масштабирование рассуждений. Это указывает на то, что именно восприятие является основным ограничивающим фактором в современных системах визуального анализа STEM. Мотивированные этим открытием, мы сосредоточились на системном усилении перцептивных способностей MLLM, представив код в качестве мощной среды восприятия — исполняемый код обеспечивает точную семантику, которая естественным образом согласуется со структурированной природой STEM-визуализаций. Конкретно мы создали ICC-1M, крупномасштабный набор данных из 1 млн триплетов «Изображение-Описание-Код», реализующий парадигму «код-как-восприятие» через два взаимодополняющих подхода: (1) Генерация описаний на основе кода использует исполняемый код в качестве эталонной истины для описаний изображений, исключая характерные для современных методов дистилляции знаний галлюцинации; (2) Преобразование STEM-изображений в код побуждает модели генерировать реконструкционный код, устраняя неоднозначность естественного языка для улучшения восприятия. Для валидации парадигмы мы представляем STEM2Code-Eval — новый бенчмарк, напрямую оценивающий визуальное восприятие в STEM-доменах. В отличие от существующих подходов, использующих точность решения задач как косвенный показатель, измеряющий лишь релевантное понимание проблемы, наш бенчмарк требует всестороннего визуального понимания через генерацию исполняемого кода для реконструкции изображения, обеспечивая детерминированную и верифицируемую оценку. Код доступен по адресу https://github.com/TongkunGuan/Qwen-CodePercept.

English

When MLLMs fail at Science, Technology, Engineering, and Mathematics (STEM) visual reasoning, a fundamental question arises: is it due to perceptual deficiencies or reasoning limitations? Through systematic scaling analysis that independently scales perception and reasoning components, we uncover a critical insight: scaling perception consistently outperforms scaling reasoning. This reveals perception as the true lever limiting current STEM visual reasoning. Motivated by this insight, our work focuses on systematically enhancing the perception capabilities of MLLMs by establishing code as a powerful perceptual medium--executable code provides precise semantics that naturally align with the structured nature of STEM visuals. Specifically, we construct ICC-1M, a large-scale dataset comprising 1M Image-Caption-Code triplets that materializes this code-as-perception paradigm through two complementary approaches: (1) Code-Grounded Caption Generation treats executable code as ground truth for image captions, eliminating the hallucinations inherent in existing knowledge distillation methods; (2) STEM Image-to-Code Translation prompts models to generate reconstruction code, mitigating the ambiguity of natural language for perception enhancement. To validate this paradigm, we further introduce STEM2Code-Eval, a novel benchmark that directly evaluates visual perception in STEM domains. Unlike existing work relying on problem-solving accuracy as a proxy that only measures problem-relevant understanding, our benchmark requires comprehensive visual comprehension through executable code generation for image reconstruction, providing deterministic and verifiable assessment. Code is available at https://github.com/TongkunGuan/Qwen-CodePercept.

CodePercept: Основанное на коде визуальное восприятие STEM для MLLM

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Аннотация

Support