ChatPaper.aiChatPaper

SPARC: Separazione dei Circuiti di Percezione e Ragionamento per il Ridimensionamento al Momento del Test dei VLM

SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

February 6, 2026
Autori: Niccolo Avogaro, Nayanika Debnath, Li Mi, Thomas Frick, Junling Wang, Zexue He, Hang Hua, Konrad Schindler, Mattia Rigotti
cs.AI

Abstract

Nonostante i recenti successi, lo scaling al momento del test - ovvero l'espansione dinamica del budget di token durante l'inferenza secondo necessità - rimane un approccio fragile per i modelli visione-linguaggio (VLM): catene di ragionamento non strutturate sulle immagini intrecciano percezione e ragionamento, portando a contesti lunghi e disorganizzati in cui piccoli errori percettivi possono propagarsi fino a generare risposte completamente errate. Inoltre, per ottenere buone prestazioni è necessario un costoso apprendimento per rinforzo con ricompense definite manualmente. Qui introduciamo SPARC (Separating Perception And Reasoning Circuits), un framework modulare che disaccoppia esplicitamente la percezione visiva dal ragionamento. Ispirandosi all'elaborazione sequenziale sensoriale-cognitiva nel cervello, SPARC implementa una pipeline a due stadi in cui il modello esegue prima una ricerca visiva esplicita per localizzare le regioni rilevanti per la domanda, per poi condizionare il proprio ragionamento su tali regioni per produrre la risposta finale. Questa separazione consente uno scaling al test indipendente con allocazione asimmetrica della potenza di calcolo (ad esempio, privilegiando l'elaborazione percettiva in caso di distribuzione shift), supporta un'ottimizzazione selettiva (ad esempio, migliorando solo lo stadio percettivo quando è il collo di bottiglia per le prestazioni end-to-end) e si adatta a contesti compressi eseguendo la ricerca globale a risoluzioni immagine inferiori e allocando l'elaborazione ad alta risoluzione solo alle regioni selezionate, riducendo così il numero totale di token visivi e il calcolo richiesto. Su benchmark impegnativi di ragionamento visivo, SPARC supera le baseline monolitiche e forti approcci di visual-grounding. Ad esempio, SPARC migliora l'accuratezza di Qwen3VL-4B sul benchmark V^* VQA di 6,7 punti percentuali e supera il "pensare con le immagini" di 4,6 punti su un compito OOD impegnativo, nonostante richieda un budget di token 200 volte inferiore.
English
Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on the V^* VQA benchmark by 6.7 percentage points, and it surpasses "thinking with images" by 4.6 points on a challenging OOD task despite requiring a 200times lower token budget.
PDF32March 31, 2026