Visual Para-Thinker++: Een Enkelbeleid Multi-Agent Raamwerk voor Visuele Redenering

Samenvatting

Visueel redeneren vereist het integreren van bewijs dat verspreid is over regio's, attributen en relaties, waardoor ketenredenering vatbaar is voor vroegtijdige perceptuele binding en hallucinatie. Wij stellen Visual Para-Thinker++ voor, een multi-agent framework met één enkel beleid waarin één gedeeld MLLM-beleid wordt geïnstantieerd als rol-afhankelijke Main-, Worker- en Summary Agents. De Main Agent ontleedt de taak met vaste allocatiepatronen; Worker Agents redeneren parallel onder contextisolatie; en de Summary Agent integreert volledige redeneersporen van Workers in plaats van meerderheidsstemming over eindlabels. Het gedeelde beleid wordt getraind door Multi-Agent Capability Injection en Role-Decoupled Multi-Agent Optimization, die rol-specifieke beloningen en voordelen toewijzen aan corresponderende tokensegmenten om gradientconflicten tussen samenwerkende rollen te verminderen. Een native inference-engine maakt efficiënte multi-agent rollout mogelijk door gedeelde visuele prefix en KV-cache-hergebruik. Op V*, CountBench, de RefCOCO-familie en HallusionBench presteert Visual Para-Thinker++ consequent beter dan single-trajectory en inference-time parallelle baselines, met bijzonder sterke verbeteringen op hallucinatiegevoelig visueel redeneren.

English

Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making single-chain reasoning prone to early perceptual commitment and hallucination. We propose Visual Para-Thinker++, a single-policy multi-agent framework in which one shared MLLM policy is instantiated as role-conditioned Main, Worker, and Summary Agents. The Main Agent decomposes the task with fixed allocation patterns; Worker Agents reason in parallel under context isolation; and the Summary Agent reconciles full Worker reasoning traces rather than majority-voting on final labels. The shared policy is trained by Multi-Agent Capability Injection and Role-Decoupled Multi-Agent Optimization, which assign role-specific rewards and advantages to corresponding token segments to reduce gradient conflict among collaborative roles. A native inference engine enables efficient multi-agent rollout through shared visual prefix and KV cache reuse. Across V*, CountBench, the RefCOCO family, and HallusionBench, Visual Para-Thinker++ consistently outperforms single-trajectory and inference-time parallel baselines, with especially strong gains on hallucination-sensitive visual reasoning.