SPARC: Separando Circuitos de Percepção e Raciocínio para Escalonamento em Tempo de Teste de VLMs

Resumo

Apesar dos sucessos recentes, o escalonamento durante o teste - ou seja, expandir dinamicamente o orçamento de tokens durante a inferência conforme necessário - permanece frágil para modelos de visão e linguagem (VLMs): cadeias de pensamento não estruturadas sobre imagens emaranham a percepção e o raciocínio, levando a contextos longos e desorganizados onde pequenos erros perceptuais podem se propagar em cascata para respostas completamente erradas. Além disso, é necessário um caro aprendizado por reforço com recompensas manuais para alcançar um bom desempenho. Aqui, introduzimos o SPARC (Separating Perception And Reasoning Circuits), uma estrutura modular que desacopla explicitamente a percepção visual do raciocínio. Inspirado pelo processamento sequencial sensório-cognitivo no cérebro, o SPARC implementa um pipeline de dois estágios no qual o modelo primeiro realiza uma busca visual explícita para localizar regiões relevantes para a pergunta e, em seguida, condiciona seu raciocínio nessas regiões para produzir a resposta final. Essa separação permite um escalonamento independente durante o teste com alocação assimétrica de computação (por exemplo, priorizando o processamento perceptual sob mudança de distribuição), suporta otimização seletiva (por exemplo, melhorando apenas o estágio perceptual quando este é o gargalo para o desempenho end-to-end) e acomoda contextos comprimidos ao executar a busca global em resoluções de imagem mais baixas e alocar processamento de alta resolução apenas para regiões selecionadas, reduzindo assim a contagem total de tokens visuais e a computação. Em benchmarks desafiadores de raciocínio visual, o SPARC supera as linhas de base monolíticas e as abordagens robustas de ancoragem visual. Por exemplo, o SPARC melhora a precisão do Qwen3VL-4B no benchmark VQA V^* em 6,7 pontos percentuais e supera o "pensar com imagens" em 4,6 pontos em uma tarefa desafiadora de OOD (Fora da Distribuição), apesar de exigir um orçamento de tokens 200 vezes menor.

English

Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on the V^* VQA benchmark by 6.7 percentage points, and it surpasses "thinking with images" by 4.6 points on a challenging OOD task despite requiring a 200times lower token budget.

SPARC: Separando Circuitos de Percepção e Raciocínio para Escalonamento em Tempo de Teste de VLMs

SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

Resumo

Support