SPARC: Trennung von Wahrnehmungs- und Denkschaltkreisen für Testzeit-Skalierung von VLMs

Zusammenfassung

Trotz jüngster Erfolge bleibt das Skalieren zur Testzeit – also die dynamische Erweiterung des Token-Budgets während der Inferenz bei Bedarf – für Vision-Language-Modelle (VLMs) anfällig: Unstrukturierte Gedankenketten über Bilder vermischen Wahrnehmung und logisches Denken, was zu langen, ungeordneten Kontexten führt, in denen kleine Wahrnehmungsfehler kaskadierend zu völlig falschen Antworten führen können. Zudem ist teures Reinforcement Learning mit handgefertigten Belohnungsfunktionen erforderlich, um gute Leistung zu erzielen. Hier stellen wir SPARC (Separating Perception And Reasoning Circuits) vor, einen modularen Rahmen, der die visuelle Wahrnehmung explizit vom logischen Denken entkoppelt. Inspiriert von der sequenziellen sensorisch-kognitiven Verarbeitung im Gehirn implementiert SPARC eine zweistufige Pipeline, bei der das Modell zunächst eine explizite visuelle Suche durchführt, um fragerelevante Regionen zu lokalisieren, und anschließend sein logisches Denken auf diese Regionen konditioniert, um die endgültige Antwort zu erzeugen. Diese Trennung ermöglicht eine unabhängige Skalierung zur Testzeit mit asymmetrischer Rechenressourcen-Zuteilung (z.B. Priorisierung der Wahrnehmungsverarbeitung bei Distribution Shift), unterstützt selektive Optimierung (z.B. Verbesserung nur der Wahrnehmungsstufe, wenn sie der Engpass für die End-to-End-Leistung ist) und ermöglicht komprimierte Kontexte, indem die globale Suche mit niedrigeren Bildauflösungen durchgeführt wird und hochauflösende Verarbeitung nur auf ausgewählten Regionen erfolgt, was die Gesamtzahl der visuellen Tokens und den Rechenaufwand reduziert. In anspruchsvollen Benchmarks für visuelles Schließen übertrifft SPARC monolithische Baseline-Modelle und starke Visual-Grounding-Ansätze. So verbessert SPARC beispielsweise die Genauigkeit von Qwen3VL-4B im V^* VQA-Benchmark um 6,7 Prozentpunkte und übertrifft "Thinking with Images" in einer anspruchsvollen OOD-Aufgabe um 4,6 Punkte, obwohl es ein 200-mal geringeres Token-Budget benötigt.

English

Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on the V^* VQA benchmark by 6.7 percentage points, and it surpasses "thinking with images" by 4.6 points on a challenging OOD task despite requiring a 200times lower token budget.

SPARC: Trennung von Wahrnehmungs- und Denkschaltkreisen für Testzeit-Skalierung von VLMs

SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

Zusammenfassung

Support