SPARC: Scheiding van Waarnemings- en Redeneercircuits voor Testtijd-schaling van VLMs

Samenvatting

Ondanks recente successen blijft test-time scaling – het dynamisch uitbreiden van het tokenbudget tijdens inferentie naar behoefte – broos voor visie-taalmodellen (VLM's): ongestructureerde chains-of-thought over beelden verstrengelen waarneming en redenering, wat leidt tot lange, ongeorganiseerde contexten waarin kleine perceptiefouten kunnen uitgroeien tot volledig foute antwoorden. Bovendien is dure reinforcement learning met handmatig gemaakte beloningen vereist om goede prestaties te bereiken. Hier introduceren we SPARC (Separating Perception And Reasoning Circuits), een modulair raamwerk dat visuele perceptie expliciet ontkoppelt van redenering. Geïnspireerd door sequentiële sensorisch-cognitieve verwerking in de hersenen, implementeert SPARC een pijplijn in twee fasen waarbij het model eerst een expliciete visuele zoekactie uitvoert om vraagrelevante regio's te lokaliseren, en vervolgens zijn redeneerproces op die regio's baseert om het definitieve antwoord te produceren. Deze scheiding maakt onafhankelijke test-time scaling mogelijk met asymmetrische compute-toewijzing (bijvoorbeeld door prioriteit te geven aan perceptuele verwerking onder distributieverschuiving), ondersteunt selectieve optimalisatie (bijvoorbeeld het alleen verbeteren van de perceptiefase wanneer deze de bottleneck is voor end-to-end prestaties), en biedt ruimte voor gecomprimeerde contexten door globale zoekacties op lagere beeldresoluties uit te voeren en hoogresolutieverwerking alleen toe te wijzen aan geselecteerde regio's, waardoor het totale aantal visuele tokens en de benodigde rekenkracht afnemen. Op uitdagende benchmarks voor visueel redeneren presteert SPARC beter dan monolithische baseline-modellen en sterke visual-grounding-benaderingen. SPARC verbetert bijvoorbeeld de nauwkeurigheid van Qwen3VL-4B op de V^* VQA-benchmark met 6,7 procentpunten, en overtreft "thinking with images" met 4,6 punten op een uitdagende OOD-taak, ondanks een 200 keer lager tokenbudget.

English

Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on the V^* VQA benchmark by 6.7 percentage points, and it surpasses "thinking with images" by 4.6 points on a challenging OOD task despite requiring a 200times lower token budget.

SPARC: Scheiding van Waarnemings- en Redeneercircuits voor Testtijd-schaling van VLMs

SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

Samenvatting

Support