SPARC: Separación de Circuitos de Percepción y Razonamiento para el Escalado en Tiempo de Prueba de Modelos de Lenguaje Visual

Resumen

A pesar de los éxitos recientes, la escalada en tiempo de prueba —es decir, expandir dinámicamente el presupuesto de tokens durante la inferencia según sea necesario— sigue siendo frágil para los modelos de visión y lenguaje (VLM): las cadenas de pensamiento no estructuradas sobre imágenes entrelazan la percepción y el razonamiento, dando lugar a contextos largos y desorganizados donde pequeños errores perceptivos pueden propagarse en cascada hasta producir respuestas completamente erróneas. Además, se requiere un costoso aprendizaje por refuerzo con recompensas diseñadas a mano para lograr un buen rendimiento. Aquí presentamos SPARC (Separating Perception And Reasoning Circuits), un marco modular que desacopla explícitamente la percepción visual del razonamiento. Inspirado por el procesamiento secuencial sensorial-cognitivo en el cerebro, SPARC implementa un pipeline de dos etapas en el que el modelo primero realiza una búsqueda visual explícita para localizar las regiones relevantes para la pregunta, y luego condiciona su razonamiento a esas regiones para producir la respuesta final. Esta separación permite una escalada independiente en tiempo de prueba con asignación asimétrica de cómputo (por ejemplo, priorizando el procesamiento perceptual bajo cambios en la distribución), admite una optimización selectiva (por ejemplo, mejorar solo la etapa perceptual cuando es el cuello de botella para el rendimiento end-to-end) y acomoda contextos comprimidos mediante la ejecución de una búsqueda global en resoluciones de imagen más bajas y la asignación de procesamiento de alta resolución solo a regiones seleccionadas, reduciendo así el recuento total de tokens visuales y el cómputo. En diversos benchmarks desafiantes de razonamiento visual, SPARC supera a las líneas base monolíticas y a enfoques sólidos de grounding visual. Por ejemplo, SPARC mejora la precisión de Qwen3VL-4B en el benchmark VQA V^* en 6.7 puntos porcentuales, y supera a "pensar con imágenes" en 4.6 puntos en una tarea OOD desafiante a pesar de requerir un presupuesto de tokens 200 veces menor.

English

Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on the V^* VQA benchmark by 6.7 percentage points, and it surpasses "thinking with images" by 4.6 points on a challenging OOD task despite requiring a 200times lower token budget.