SPARC: Разделение цепей восприятия и рассуждения для масштабирования VLM во время тестирования
SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs
February 6, 2026
Авторы: Niccolo Avogaro, Nayanika Debnath, Li Mi, Thomas Frick, Junling Wang, Zexue He, Hang Hua, Konrad Schindler, Mattia Rigotti
cs.AI
Аннотация
Несмотря на недавние успехи, масштабирование во время тестирования — то есть динамическое увеличение бюджета токенов по мере необходимости на этапе вывода — остается ненадежным для моделей "визуальный язык" (VLMs): неструктурированные цепочки рассуждений об изображениях смешивают восприятие и логику, что приводит к длинным, неорганизованным контекстам, где небольшие ошибки восприятия могут каскадно приводить к совершенно неверным ответам. Более того, для достижения хорошей производительности требуется дорогостоящее обучение с подкреплением с использованием искусственно созданных вознаграждений. Здесь мы представляем SPARC (Separating Perception And Reasoning Circuits) — модульную структуру, которая явно разделяет визуальное восприятие и логические рассуждения. Вдохновленные последовательной сенсорно-когнитивной обработкой в мозге, мы реализуем двухэтапный конвейер, в котором модель сначала выполняет явный визуальный поиск для локализации релевантных вопросу областей, а затем строит свои рассуждения, conditioning их на этих областях, чтобы получить окончательный ответ. Это разделение позволяет независимо масштабировать систему во время тестирования с асимметричным распределением вычислительных ресурсов (например, приоритизируя обработку восприятия при сдвиге распределения), поддерживает выборочную оптимизацию (например, улучшение только этапа восприятия, когда он является узким местом для сквозной производительности) и позволяет работать со сжатыми контекстами, выполняя глобальный поиск при низком разрешении изображения и выделяя обработку высокого разрешения только выбранным областям, тем самым сокращая общее количество визуальных токенов и вычислений. На сложных бенчмарках визуального мышления SPARC превосходит монолитные базовые модели и сильные подходы с визуальным заземлением. Например, SPARC повышает точность модели Qwen3VL-4B на бенчмарке V^* VQA на 6.7 процентных пунктов и превосходит метод "thinking with images" на 4.6 пункта в сложной задаче OOD, несмотря на требование в 200 раз меньшего бюджета токенов.
English
Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on the V^* VQA benchmark by 6.7 percentage points, and it surpasses "thinking with images" by 4.6 points on a challenging OOD task despite requiring a 200times lower token budget.