Visual Para-Thinker++ : un cadre multi-agent à politique unique pour le raisonnement visuel

Résumé

Le raisonnement visuel nécessite d'intégrer des indices répartis entre régions, attributs et relations, ce qui rend le raisonnement à chaîne unique sujet à un engagement perceptif précoce et à des hallucinations. Nous proposons Visual Para-Thinker++, un cadre multi-agent à politique unique dans lequel une politique MLLM partagée est instanciée sous forme d'agents conditionnés par leur rôle : Principal, Travailleur et Résumé. L'Agent Principal décompose la tâche selon des schémas d'allocation fixes ; les Agents Travailleurs raisonnent en parallèle sous isolation de contexte ; et l'Agent Résumé concilie l'ensemble des traces de raisonnement des Travailleurs plutôt que de recourir à un vote majoritaire sur les étiquettes finales. La politique partagée est entraînée par injection de capacités multi-agents et optimisation multi-agent découplée par rôle, qui attribuent des récompenses et avantages spécifiques à chaque rôle aux segments de token correspondants, réduisant ainsi les conflits de gradient entre rôles collaboratifs. Un moteur d'inférence natif permet un déploiement multi-agent efficace via un préfixe visuel partagé et une réutilisation du cache KV. Sur V*, CountBench, la famille RefCOCO et HallusionBench, Visual Para-Thinker++ surpasse systématiquement les bases de référence à trajectoire unique et parallèle en temps d'inférence, avec des gains particulièrement marqués sur le raisonnement visuel sensible aux hallucinations.

English

Visual reasoning requires integrating evidence distributed across regions, attributes, and relations, making single-chain reasoning prone to early perceptual commitment and hallucination. We propose Visual Para-Thinker++, a single-policy multi-agent framework in which one shared MLLM policy is instantiated as role-conditioned Main, Worker, and Summary Agents. The Main Agent decomposes the task with fixed allocation patterns; Worker Agents reason in parallel under context isolation; and the Summary Agent reconciles full Worker reasoning traces rather than majority-voting on final labels. The shared policy is trained by Multi-Agent Capability Injection and Role-Decoupled Multi-Agent Optimization, which assign role-specific rewards and advantages to corresponding token segments to reduce gradient conflict among collaborative roles. A native inference engine enables efficient multi-agent rollout through shared visual prefix and KV cache reuse. Across V*, CountBench, the RefCOCO family, and HallusionBench, Visual Para-Thinker++ consistently outperforms single-trajectory and inference-time parallel baselines, with especially strong gains on hallucination-sensitive visual reasoning.