ChatPaper.aiChatPaper

SPARC : Séparation des Circuits de Perception et de Raisonnement pour la Mise à l'Échelle en Phase de Test des Modèles Visio-Linguistiques

SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

February 6, 2026
Auteurs: Niccolo Avogaro, Nayanika Debnath, Li Mi, Thomas Frick, Junling Wang, Zexue He, Hang Hua, Konrad Schindler, Mattia Rigotti
cs.AI

Résumé

Malgré des avancées récentes, l'ajustement à l'inférence - c'est-à-dire l'expansion dynamique du budget de tokens pendant l'inférence selon les besoins - reste fragile pour les modèles vision-langage (VLM) : les chaînes de raisonnement non structurées sur les images entremêlent perception et raisonnement, conduisant à des contextes longs et désorganisés où de petites erreurs perceptives peuvent s'amplifier en réponses complètement erronées. De plus, un apprentissage par renforcement coûteux avec des récompenses conçues manuellement est nécessaire pour obtenir de bonnes performances. Nous présentons ici SPARC (Separating Perception And Reasoning Circuits), un cadre modulaire qui découple explicitement la perception visuelle du raisonnement. Inspiré par le traitement séquentiel sensoriel-cognitif dans le cerveau, SPARC met en œuvre un pipeline en deux étapes où le modèle effectue d'abord une recherche visuelle explicite pour localiser les régions pertinentes pour la question, puis conditionne son raisonnement sur ces régions pour produire la réponse finale. Cette séparation permet un ajustement à l'inférence indépendant avec une allocation de calcul asymétrique (par exemple, prioriser le traitement perceptuel sous un décalage de distribution), prend en charge une optimisation sélective (par exemple, améliorer uniquement l'étape perceptuelle lorsqu'elle est le goulot d'étranglement pour les performances end-to-end), et permet des contextes compressés en exécutant une recherche globale à des résolutions d'image plus faibles et en allouant un traitement haute résolution uniquement aux régions sélectionnées, réduisant ainsi le nombre total de tokens visuels et le calcul requis. Sur des benchmarks exigeants de raisonnement visuel, SPARC surpasse les approches monolithiques de référence et les approches solides d'ancrage visuel. Par exemple, SPARC améliore la précision de Qwen3VL-4B sur le benchmark VQA V^* de 6,7 points de pourcentage, et il surpasse la méthode "thinking with images" de 4,6 points sur une tâche OOD difficile, et ce malgré un budget de tokens 200 fois inférieur.
English
Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on the V^* VQA benchmark by 6.7 percentage points, and it surpasses "thinking with images" by 4.6 points on a challenging OOD task despite requiring a 200times lower token budget.
PDF32March 16, 2026