От восприятия к мышлению: разделение восприятия и рассуждения улучшает пост-обучение визуально-языковых моделей

Аннотация

Недавние достижения в области визуально-языковых моделей (VLM) подчеркивают важность длинных цепочек рассуждений; тем не менее, мы обнаруживаем, что их производительность в визуальных задачах в первую очередь ограничена недостатком визуального восприятия, а не самих рассуждений. В данной работе мы систематически изучаем взаимосвязь между восприятием и рассуждением в пост-обучении VLM, разбивая их возможности на три отдельных этапа обучения: визуальное восприятие, визуальное рассуждение и текстовое рассуждение, с использованием специализированных обучающих данных. Мы демонстрируем, что визуальное восприятие (а) требует целенаправленной оптимизации со специализированными данными; (б) служит фундаментальной основой, которая должна быть укреплена путем поэтапного обучения перед уточнением визуальных рассуждений; и (в) более эффективно изучается с помощью обучения с подкреплением (RL), а не SFT на основе подписей. Наши эксперименты на нескольких VLM показывают, что поэтапное обучение последовательно улучшает как визуальное восприятие, так и производительность рассуждений по сравнению с объединенным обучением. Примечательно, что модели, обученные с помощью нашего подхода, достигают на 1,5% более высокой точности рассуждений при на 20,8% более коротких цепочках рассуждений, что позволяет предположить, что превосходное восприятие снижает потребность в чрезмерных рассуждениях. Кроме того, мы показываем, что такое поэтапное разделение по способностям представляет собой новое измерение куррикулума, ортогональное традиционным куррикулумам, основанным на сложности, и их объединение дает дополнительные аддитивные выигрыши. Наши модели с поэтапным обучением достигают превосходной производительности среди VLM с открытыми весами, устанавливая передовые результаты на нескольких задачах визуальной математики и восприятия (например, +5,2% на WeMath и +3,7% на RealWorldQA) по сравнению с базовой версией.

English

Recent advances in vision-language models (VLMs) emphasize long chain-of-thought reasoning; yet, we find that their performance on visual tasks is primarily limited by a lack of visual perception as opposed to reasoning itself. In this work, we systematically study the interplay between perception and reasoning in VLM post-training by decomposing their capabilities into three separate training stages: visual perception, visual reasoning, and textual reasoning, incorporating specialized training data. We demonstrate that visual perception (a) requires targeted optimization with specialized data; (b) serves as a fundamental scaffold that should be solidified through staged training before refining visual reasoning; and (c) is more effectively learned via RL than caption-based SFT. Our experiments across multiple VLMs demonstrate that staged training consistently improves both visual perception and reasoning performance over merged training. Notably, models trained with our approach achieve 1.5% higher reasoning accuracy with 20.8% shorter reasoning traces, suggesting that superior perception reduces the need for excessive reasoning. Furthermore, we show that this capability-based staging represents a new curriculum dimension orthogonal to traditional difficulty-based curricula, and combining both yields further additive gains. Our staged-training models achieve superior performance among open-weight VLMs, establishing advanced results on several visual math and perception (e.g., +5.2% on WeMath and +3.7% on RealWorldQA) tasks compared with the base counterpart.